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Beschreibung 

Verfahren und Coraputer-Anordnung zum Bereitstellen von 
Datenbankinformation einer ersten Datenbank und Verfahren zum 
rechnergestutzten Bilden eines statistischen Abbildes einer 
Datenbank 

Die Erfindung betrifft ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinf ormation einer 
ersten Datenbank und ein Verfahren zum rechnergesttitzten 
Bilden eines statistischen Abbildes einer Datenbank, 

Heutzutage sind kaum noch Vorgange zu beobachten, die ohne 
Unterstiitzung eines Computers ablaufen. Haufig wird bei 
Einsatz eines Computers im Rahmen eines Prozesses der Prozess 
mittels des Computers tiberwacht oder zumindest 
prozessspezif ische Daten von dem Computer auf gezeichnet- und 
protokolliert, beispielsweise Daten iiber die einzelnen 
Prozessschritte des Prozesses und deren Ergebnisse oder 
Zwischenergebnisse . 

Beispielsweise wird Ublicherweise in einem Call Center im 
Detail f estgehalten, wann welcher Anruf in dem Call Center 
eingegangen ist, wann der jeweilige eingegangene Anruf von 
einem Mitarbeiter des Call Centers bearbeitet wurde, zu 
welchem anderen Mitarbeiter des Call Centers moglicherweise 
weitergeleitet worden ist, etc. 

Ferner werden Ublicherweise in der Prozess -Automat isierung 
umfangreiche Protokoll-Dateien gebildet, in denen Daten tiber 
die einzelnen Prozesse gespeichert werden. 

Ein drittes Anwendungsgebiet ist in der Telekommunikation zu 
sehen; so werden beispielsweise in den Switches eines 
Mobilfunknetzes Protokolldaten (iber den in den Switches 
auftretenden Datenverkehr ermittelt und gespeichert. 



wo 2004/044772 



PCT/EP2003/011655 



2 

SchlieBlich werden auch in einem Webserver-Computer haufig 
Protokolldaten tiber den Datenverkehr, beispielsweise aber die 
Zugrif f shaufigkeit auf von dem Webserver-Computer 
bereitgestellter Information^ gebildet. 

Treten im Verlauf eines Prozesses Probleme auf, so wird 
tiblicherweise der Betreiber der Anlage, auf welcher der 
Prozess ausgefuhrt wird, vor Ort versuchen, die Ursache fur 
die aufgetretenen Probleme zu finden. Gelingt ihra das nicht, 
so wendet er sich meist an den Hersteller der Anlage. 
Herstellerseitig ist es zum Auffinden der Problemursache 
erforderlich, auf die protokollierten Prozessdaten, allgemein 
auf die auf gezeichneten Protokolldaten der TUilage 
zuzugreifen. Derzeit hat eine die Protokolldaten enthaltende 
Protokolldatei eine erhebliche GroJie, haufig in der 
GrGBenordnung einiger Dutzend GByte. Eine solche 
Protokolldatei lasst sich aus diesem Grund nur schlecht zu 
dem Hersteller der Anlage, beispielsweise unter Verwendung 
von FTP (File Transfer Protocol) iibertragen. Selbst wenn 
ausreichend schnelle Kommunikationsverbindungen zur VerfUgung 
stehen, ist es ftir den Hersteller einer Anlage schwierig und 
teuer, fur eine groJiere Anzahl von Kunden die 
Protokolldateien zu speichern und zu verarbeiten. 

Auch in anderen Bereichen besteht der Bedarf , zu 
Analysezwecken gro^e Datenmengen zu iibertragen, 
beispielsweise Uberall dort, wo groBe Datenbanken offentlich 
zuganglich sind, um der Of f entlichkeit das Forschen unter 
Verwendung der Datenbankdaten zu ermOglichen. Die 
Datenbankdaten k5nnen Daten sein aus {of f entlichen) 
Forschungsprojekten (beispielsweise Daten einer Gen-Datenbank 
Oder einer Protein-Datenbank) , Wetterdaten, demographische 
Daten, Daten, die zum Zwecke einer Rasterfahndung (in diesem 
Fall nur einem begrenzten Kreis befugter Nutzer) zur 
Verfiigung gestellt werden sollen, Insbesondere der Bereich 
der Biotechnologie ist heutzutage von erheblichem Interesse. 



V 
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Es existieren eine Vielzahl von Datenbanken in diesem 
Bereich. 



Ferner ist es insbesondere aus Grttnden der Datensicherheit 
5 haufig wtinschenswert / nicht alle konkreten Informationen der 
Datenbankdaten weiterzugeben. 

Eine bekannte M5glichkeit, Informationen einer Datenbank tiber 
ein Komiaunikationsnetz von einem Server-Computer einem 

10 Client-Computer bereitzustellen, besteht darin, Diagnose- 

oder Statistik-Werkzeuge zur Analyse der in den Datenbanken 
enthaltenen Daten direkt serverseitig zu instailieren, weiche 
beispielsweise unter Verwendung eines Web-Servers, welcher 
auf dem Server-Computer installiert ist und eines auf einem 

15 Client-Computer installierten Web-Browser-Programms genutzt 
werden kOnnen. HierfUr konnen so genannte OLAP-Werkzeuge (On- 
Line Analytical Processing-Werkzeuge) eingesetzt werden, 
deren Betrieb allerdings sehr aufwendig und teuer ist. Bei 
einigen OLAP-Werkzeugen ist die zu verarbeitende Datenmenge 

20 sogar schon so groii geworden, so dass die OLAP-Werkzeuge 
versagen. 

Ferner ist es fUr den Betreiber einer Anlage sehr unbequem 
und teuer, diese Werkzeuge serverseitig zu betreiben, da das 
25 unmittelbare Interesse an der Information ja bei dem Nutzer 
des Client-Computers liegt und haufig der Betreiber der 
Anlage nicht bereit ist, die zusStzlichen Kosten far die 
Bereitstell\mg und Wartung des Server-Computers und der OLAP- 
Werkzeuge zu tragen . 

30 

Weiterhin ist bei einer grofien Anzahl von Client-Computern 
und einer gro5en Zahl von Anfragen an den Server-Computer die 
Beantwortung aller Anfragen sehr rechenaufwendig, weshalb die 
Hardware des Server-Computers haufig unakzeptabel teuer ist. 

35 

Der Erfindung liegt das Problem eines effizienten Zugriffs 
auf den Inhait einer Datenbank Uber ein Kommunikationsnetz 
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unter Wahrung der Vertraulichkeit der in der Datenbank 
enthaltenen Daten zugrunde. 

Das Problem wird durch ein Verfahren und eine Computer- 
Anordnung zum Bereitstellen von Datenbankinformation einer 
ersten Datenbank sowie durch ein Verfahren zum 
rechnergestutzten Bilden eines statistischen Modells einer 
Datenbank mit den Merkmalen gemafi den unabhangigen 
PatentansprUchen gel5st . 

Das allgemeine Szenario, welches von der Erfindung adressiert 
wird, ist auf folgende Weise charakterisiert : An einem ersten 
Ort A steht eine groBe Menge von in einer Datenbank 
gespeicherten Daten zur VerfUgung. An einem zweiten Ort B 
will jemand diese zur Verftigung stehenden Daten nutzen. Der 
Nutzer an dem Ort B ist weniger an einzelnen Datensatzen 
interessiert, sondern in erster Linie an der die 
Datenbankdaten charakterisierenden Statistik. 

Bei einem Verfahren zum rechnergestutzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank wird ftir die 
erste Datenbank ein erstes statistisches Abbild 
beispielsweise in Form eines gemeinsamen 
Wahrscheinlichkeitsmodells gebildet. Dieses Abbild bzw. 
Modell reprasentiert die statistischen Zusammenhange der in 
der ersten Datenbank enthaltenen Datenelemente . Das erste 
statistische Abbild wird in einem Server- Computer 
gespeichert. Ferner wird das erste statistische Abbild von 
dem Server-Computer Uber ein Kommunikationsnetz zu einem 
Client-Computer Ubertragen und das empfangene erste 
statistische Abbild wird von dem Client-Computer 
weiterverarbeitet • 

Eine Computer-Anordnung zum rechnergestutzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank weist einen 
Server-Computer und einen Client-Computer auf, die 
miteinander mittels eines Kommunikationsnetzes gekoppelt 
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sind. In dem Server-Computer ist ein erstes statistisches 
Abbild, welches fUr eine erste Datenbank gebildet ist, 
gespeichert. Das erste statistische Abbild beschreibt die 
statistischen Zusammenhange der in der ersten Datenbank 
5 enthaltenen Datenelemente . Der Client-Computer ist derart 
eingerichtet, dass mit ihm eine Weiterverarbeitung, 
beispielsweise eine Analyse, des von dem Server-Computer Uber 
das Kommunikationsnetz zu dem Client-Computer iibertragenen 
ersten statistischen Abbildes mbglich ist. 

10 

Bei einem Verfahren z\am rechnergesttitzten Bilden eines 
statistischen Modells einer Datenbank, welche eine Vielzahl 
von Datenelementen aufweist, kann ein so genanntes EM- 
Lernverf ahren (Expectation Maximisation-Lernverf ahren) auf 
15 die Datenelemente durchgefUhrt werden, sowie auch alternativ 
andere Lernverf ahren. Die Struktur des gemeinsamen (alle 
Felder in der Datenbank umfassenden) 

Wahrscheinlichkeitsmodells kann im Rahmen des allgemeinen 
Formalismus der Bayesianischen Netze (synonym auch Kausale 

20 Netze oder allgemeine Graphische Probabilistische Netze) 
festgelegt werden. Hierbei wird die Struktur durch einen 
gerichteten Graphen festgelegt. Der gerichtete Graph weist 
Knoten und die Knoten miteinander in Bezug setzende Kanten 
auf, wobei die Knoten vorgebbare Dimensionen des Modells bzw. 

25 des Abbildes entsprechend den in der Datenbank vorhandenen 
Werten beschreiben. Einige Knoten k5nnen dabei auch nicht 
beobachtbaren Grbfien (so genannten latenten Variablen, wie 
sie beispielsweise in [1] beschrieben sind) entsprechen. Im 
Rahmen eines allgemeinen EM-Lernverf ahrens werden fehlende 

30 Oder nicht beobachtbare GroBen durch Erwartungswerte oder 
erwartete Verteilungen ersetzt. Im Rahmen des 
erfindungsgemaJien verbesserten EM-Lernverf ahrens werden nur 
die Erwartungswerte ermittelt zu den fehlenden Grofien, deren 
Eltern-Knoten beobachtbare Werte aus der Datenbank sind. 



Als statistisches Abbild wird vorzugsweise ein statistisches 
Modell verwendet. 
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Unter einem statistischen Modell ist in diesera Zusammenhang 
jedes Modell zu verstehen, das alle statistischen 
ZusaicimenhgLnge bzw. die gemeinsame HSuf igkeitsverteilung der 
5 Daten einer Datenbank darstellt (exakt oder approximativ) , 
beispielsweise ein Bayesianisches (oder Kausales) Netz, ein 
Markov Netz oder allgemein ein Graphisches Probabilistisches 
Modell, ein ,,Latent Variabel Model^ , ein statistisches 
Clustering-Modell oder ein trainiertes kUnstliches Neuronales 
10 Netz. Das statistische Modell kann somit als ein 

vollstandiges, exaktes oder approximatives Abbild der 
Statistik der Datenbank aufgefasst werden. 

Im Zusammenhang der Weiterverarbeitung des statistischen 
15 Modells durch den Client-Computer bedeutet dies, dass eine 
Analyse nicht wie gem^fi dem Stand der Technik basierend auf 
den Datenelementen der Datenbank selbst oder basierend auf 
einem OLAP-Werkzeug erfolgt. Stattdessen werden alle 
gewanschten (bedingten) Wahrscheinlichkeitsverteilungen aus 
20 dem gemeinsamen Wahrscheinlichkeitsmodell, dem statistischen 
Modell, ermittelt. 

Oiese erf indungsgemalie Vorgehensweise hat insbesondere die 

folgenden Vorteile: 
25 • Verglichen mit der Datenbank selbst ist das statistische 
Modell sehr klein, da das statistische Modell ein 
komprimiertes Abbild der Statistik der Datenbank ist 
(nicht der einzelnen Eintrage in der Datenbank) , 
vergleichbar einem gemafi dem JPEG-Standard komprimiertem 
30 digitalen Bild, welches ein komprimiertes aber 

approximatives Abbild des digitalen Bildes darstellt; 

• Das statistische Modell selbst kann mit wesentlich 
geringerem Hardware-Aufwand sehr schnell evaluiert 
werden. 

35 

Je nach verwendetem Verfahren zum Trainieren des 
statistischen Modells kann eine erhebliche Kompression der 
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Datenbank erzielt werden, Unter Verwendung eines in der 
erzielbaren Kompression skalierbaren Lernverf ahrens wurde 
eine Kompression von bis zu einem Faktor 1000 erreicht, wobei 
die in dem statistischen Modell enthaltene Information 
qualitativ ausreichend war. Die komprimierten statistischen 
Modelle lassen sich somit sehr einfach beispielsweise mittels 
elektronischer Post (E-Mail), FTP (File Transfer Protocol) 
Oder anderer Kommunikationsprotokolle zur Datentibertragung 
von dem Server-Computer zu dem Client-Computer tibertragen. 
Das iibertragene statistische Modell kann somit clientseitig 
zur nachfolgenden statistischen Analyse genutzt werden. 

Der Server-Computer und der Client-Computer konnen liber ein 
beliebiges Kommunikationsnetz, beispielsweise uber ein 
Festnetz oder liber ein Mobilfunknetz miteinander zur 
Obertragung des statistischen Modells gekoppelt sein. 

Die Erfindung ist zurri Einsatz in jedem Bereich geeignet, in 
dem es wtinschenswert ist, nicht die gesamten Daten einer 
grofien Datenbank zu ubertragen, sondern nur eine moglichst 
geringe Datenmenge zu iibertragen bei Erhalt eines mOglichst 
grofien Inf ormationsgehalts der tibertragenen Daten 
hinsichtlich der Datenbank, die von den tibertragenen Daten 
beschrieben werden, 

Ein Vorteil der Erfindung ist insbesondere darin zu sehen, 
dass es ermOglicht wird, in einem hohen Mafie die 
Vertraulichkeit von individuellen Eintragen in die Datenbank 
zu gewSlhrleisten, da nicht alle Datenelemente der Datenbank 
selbst Iibertragen werden, sondern nur eine statistische 
Reprasentation der Datenelemente der Datenbank, womit 
clientseitig eine statistische Analyse der Datenbank mCglich 
wird, ohne dass clientseitig die konkreten, m5glicherweise 
geheim zu haltenden Daten verfUgbar sind. 

Ferner kann ein Betreiber beispielsweise einer technischen 
Anlage die statistischen Inhalte der von ihm geftihrten 
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Datenbank einem Nutzer eines Client-Computers unkompliziert 
und in der Regel ohne Verletzung von Datenschutzrichtlinien, 
beispielsweise mittels eines auf dem Server-Computer 
installierten Web-Servers bereitgestellt werden, in welchem 
5 Fall die statistischen Modelle mittels eines auf einem 

Client-Computer installierten Web-Browser-Prograroms abgerufen 
werden k5nnen . \ 

Die Erfindung kann mittels Software, das heifit mittels eines 
10 Computerprogramms, in Hardware, das heifit mittels einer 
speziellen elektronischen Schaltung, oder in beliebig 
hybrider Form, das heiftt teilweise in Software und teilweise 
in Hardware, realisiert werden, 

15 Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
abhangigen AnsprUchen. 

Die folgenden Ausgestaltungen der Erfindung betref fen die 
Verfahren und die Computer-Aaordnung. 

20 

Gemafi einer Ausgestaltung der Erfindung ist es vorgesehen, 
unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
zweiten Datenbank ein statistisches Gesamt-Modell bzw. ein 
25 statistisches Gesamt-Abbild zu bilden, welches zumindest 

einen Teil der in dem ersten statistischen Abbild und in der 
zweiten Datenbank enthaltenen statistischen Information 
aufweist . 

30 GemaB einer anderen Ausgestaltung der Erfindung ist es 
vorgesehen, filr eine zweite Datenbank ein zweites 
statistisches Abbild bzw. ein zweites statistisches Modell zu 
bilden, welches die statistischen Zusammenhange der in der 
zweiten Datenbank enthaltenen Datenelemente reprSsentiert 

35 Das zweite statistische Abbild wird tiber das 

Kommunikationsnetz zu dem Client-Computer tibertragen und 
unter Verwendung des ersten statistischen Abbildes und des 
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zweiten statistischen Abbildes wird von dem Client-Computer 
ein statistisches Gesamt-Abbild gebildet, welches ziimindest 
einen Teil der in dem ersten statistischen Abbild vnd in dem 
zweiten statistischen Abbild enthaltenen statistischen 
Information aufweist. 

Diese Ausgestaltungen der Erfindung tragen beispielsweise 
folgendem allgeraeinen erf indungsgemafien Szenario Rechnung, 
dass fast jeder Vorgang in einem Unternehmen, insbesondere 
auch jeder Knndenkontakt und jede Bestellung und Auslieferung 
eines Produktes mit Rechneruntersttitzung ablauft. In diesem 
Zusairanenhang werden tiblicherweise die Vorgange in dem 
Unternehmen oder jede Aktion eines Kunden im Detail in einer 
Protokolldatei auf gezeichnet, beispielsweise im Rahmen von so 
genannten Customer Relationship Management Systemen (CRM- 
Systemen) oder im Rahmen von Supply Chain Management 
Systemen, Die protokollierten Daten stellen fiir viele 
Unternehmen ein erhebliches Vermogen dar. Dement sprechend 
zeigt sich ein Trend der Unternehmen, dass sie ihre Daten, 
beispielsweise Daten liber Kunden, in „Wissen tiber Kunden"* 
umsetzen. Es hat sich jedoch gezeigt, dass die in einem 
Unternehmen vorhandenen Informationen beispielsweise Uber 
einen Kunden (aber auch Uber den Betrieb einer technischen 
Anlage oder ahnlichem) nur sehr einseitig ist. Haufig fehlen 
wesentliche Attribute aller oder einzelner Kunden oder 
technischen Anlagen, die z.B. ein Zielgruppen-gerechtes 
Marketing, allgemein eine qualitativ hochwertige 
Datenauswertung, erst einnoglichen, Ein Beispiel im Rahmen der 
Kundeninformation ist in dem Alter des Kunden zu sehen oder 
in deren Familienstand sowie die Anzahl der Kinder. Es hat 
sich jedoch herausgestellt, dass bei Zusammenf Uhren der 
Information mehrerer Datenbanken, seien es Kundendatenbanken 
Oder auch Datenbanken mit Informationen Uber technische 
Prozesse, ein erheblich genaueres und vollstandigeres ^Bild"* 
(im Fall des Marketings, ein ,,Kundenbild^ ) ergeben. Die 
gemeinsame Nutzung der Datenbanken bzw. des Wissens mehrerer 
Unternehmen wtirde somit ftir die nachfolgende Auswertung eine 
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erhebliche Verbesserung ermoglichen. Der Austausch von Daten 
Uber Unternehmensgrenzen hinweg stellt aber aus folgenden 
GrUnden keine zufrieden stellende Losung fiir das oben 
beschriebene Problem dar: 

• Unternehmen sind Ublicherweise nicht bereit. Details 
tiber ihre Kunden oder ihre technischen Prozesse an 
andere Unternehmen welter zugeben. Der Kundenstainm eines 
Unternehmens und damit die Detail-Daten tiber die Kunden 
stellen haufig ein wesentliches Unternehmensvermogen 
dar. 

• Ein Austausch der Datenbankdaten bedeutet technisch 
auch, dass groBe Mengen an Daten tibertragen und 
gespeichert werden mussen. 

• Aus datenschutzrechtlichen GrUnden sind dem Austausch 
von Datenbankdaten, insbesondere von personenbezogenen 
Daten enge Grenzen gesetzt. 

• Selbst wenn Daten zwischen zwei Unternehmen ausgetauscht 
werden, entsteht ohne zusatzliche Malinahmen zunachst nur 
fUr die Kunden, die in beiden Unternehmen bekannt sind, 
ein verbessertes Bild. FUr Kunden, die nur in einem 
Unternehmen bekannt sind, bleiben die Daten und damit 
das Bild Uber diese Kunden weiterhin unvollstandig. 

Zusammenfassend ergeben sich somit anschaulich folgende 
erf indungsgemcLfte Aspekte: 

• Das Wissen Uber Kunden oder Prozesse oder Anlagen, 
allgemein die in einer Datenbank enthaltene Information, 
wird so dargestellt, 

o dass es stark komprimiert und damit technisch auf 
einfachere Weise zwischen den Computern 
austauschbar ist, und 

• dass wesentliche Zusammenhange dargestellt werden, 
dass jedoch Detail-Inf ormationen nur in einem 
def inierbaren Mafi wiederzuf inden sind, so dass 
Unternehmen mit weniger Bedenken solche 
Informationen austauschen und keine 
Datenschutzrichtlinien verletzt werden. 
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• Die auf diese Weise dargestellte Information aus 

verschiedenen Quellen (aus verschiedenen Datenbanken) 
kann zu einem Gesamtbild kombiniert werden, welches von 
alien teilnehmenden Unternehmen genutzt werden kann. 

5 

Durch die oben beschriebenen Ausgestaltungen wird as somit 
nuniaehr moglich, unter Wahrung des Datenschutzes unter 
Reduzierung der benotigten Bandbreite zur Obertragung der 
statistischen Information, diese den Nutzern bereitzustellen, 
10 welche clientseitig die statistischen Modell zu einem 
Gesamtbild, dem Gesamt -Modell, zusammenfUhren kGnnen. 

Gemali einer anderen Ausgestaltung der Erfindung werden die 
statistischen Modell in unterschiedlichen Server-Computern 
15 gespeichert und jeweils von dort uber ein Kommunikationsnetz 
zu dem Client-Computer Ubertragen. 

In diesem Zusammenhang ist anzumerken, dass die statistischen 
Modelle von den Server-Computer (n) gebildet werden konnen, 
20 alternativ auch von anderen, moglicher weise speziell dazu 
eingerichteten Computern, in welchem Fall die gebildeten 
statistischen Modellen noch zu den Server-Computer (n) , 
beispielsweise uber ein lokales Netz, Ubertragen werden. 

25 Somit konnen die statistischen Modelle in einem heterogenen 
Netz, beispielsweise im Internet, weltweit auf sehr einfache 
Weise bereitgestellt werden. 

Mindestens eines der statistischen Modelle kann mittels eines 
30 skalierbaren Verfahrens gebildet werden, mit dem der 

Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 



35 



Mindestens eines der statistischen Modelle kann ferner 
mittels eines EM-Lernverf ahrens oder Varianten davon (wie sie 
beispielsweise in [2] beschrieben sind) oder mittels eines 
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gradientenbasierten Lernverf ahrens gebildet werden. 
Beispielsweise kann das so genannte APN-Lernverf ahren 
(Adaptive Probabilistic Network-Lernverf ahren) als 
gradientenbasiertes Lernverf ahren eingesetzt werden. 
Allgemein k5nnen alle Likelihood-basierten Lernverf ahren oder 
Bayesianische Lernverf ahren genutzt werden, wie sie 
beispielsweise in [3] beschrieben sind. Die Struktur der 
gemeinsamen Wahrscheinlichkeitsmodelle kann dabei in Form 
eines Graphischen Probabilistischen Modells (eines 
Bayesianischen Netzes, eines Markov Netzes oder einer 
Kombination davon) spezifiziert werden. Einem Spezialfall 
dieses allgemeinen Formalismus entsprechen so genannte Latent 
Variable Models oder statistische Clustering-Modelle . DarUber 
hinaus kann jedes Verf ahren zum Lernen nicht nur der 
Parameter, sondern auch der Struktur Graphischer 
Probabilistischer Modelle aus verfUgbaren Datenelementen 
genutzt werden, beispielsweise jedes beliebige 
Strukturlernverf ahren [4] und [5] . 

Die erste Datenbank oder /und die zweite Datenbank kann/konnen 
Datenelemente aufweisen, welche mindestens eine technische 
Anlage beschreiben. Die die mindestens eine technische Anlage 
beschreibenden Datenelemente kOnnen zumindest teilweise an 
der technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 

Gemafi einer Ausgestaltung der erf indungsgemaBen Computer- 
Anordnung ist in dem Client-Computer eine zweite Datenbank 
mit Datenelementen gespeichert. Der Client-Computer weist 
eine Einheit zum Bilden eines statistischen Gesamt-Modells 
unter Verwendung des ersten statistischen Modells und den 
Datenelementen der zweiten Datenbank, auf , wobei das 
statistische Gesamt-Modell ziamindest einen Teil der in dem 
ersten statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist. 
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Gemafi einer anderen Ausgestaltung der erf indungsgemaJien 
Computer-Anordnung ist ein zweiter Server -Computer 
vorgesehen, in dem ein zweites statistisches Modell, welches 
ftir eine zweite Datenbank gebildet ist, gespeichert ist, 
wobei das zweite statistische Modell die statistischen 
Zusainmenhange der in der zweiten Datenbank enthaltenen 
Datenelemente reprasentiert . Der Client-Computer ist mittels 
des Kommunikationsnetzes ebenfalls mit dem zweiten Server- 
Computer gekoppelt, Der Client-Computer weist eine Einheit 
zum Bilden eines statistischen Gesamt-Modells unter 
Verwendung des ersten statistischen Modells und des zweiten 
statistischen Modells, auf, wobei das statistische Gesamt- 
Modell zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell enthaltenen 
statistischen Information aufweist. 

Ein AusfUhrungsbeispiel der Erfindung ist in den Figuren 
dargestellt und wird im Folgenden naher erlautert. 

Es zeigen 

Figur 1 ein Blockdiagramm einer Computer-Anordnung gemaJi 
einem ersten Ausftihrungsbeispiel der Erfindung; 

Figur 2 ein Blockdiagramm einer Computer-Anordnung gemaJi 
einem zweiten Ausftihrungsbeispiel der Erfindung; 

Figur 3 ein Blockdiagramm einer Computer-Anordnung gemafi 
einem dritten Ausftihrungsbeispiel der Erfindung; 

Figur 4 ein Blockdiagramm einer Computer-Anordnung gemaii 

einem vierten Ausftihrungsbeispiel der Erfindung; und 



Figur 5 ein Blockdiagramm einer Computer-Anordnung gemSB 
35 einem fUnften Ausftihrungsbeispiel der Erfindung. 
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Fig.l zeigt eine Computer-Anordnung 100 gem^B einem ersten 
AusfUhrungsbeispiel der Erfindung. 

Die Computer-Anordnung 100 wird in einem Call Center 
eingesetzt. Die Computer-Anordnung 100 weist eine Vielzahl 
von Telefon-Endgeraten 101 auf, welche mittels 
Telefonleitungen 102 mit einem Call-Center-Computer 103, 104, 
105 verbunden sind. In dem Call Center werden die 
Telefonanrufe von Mitarbeitern des Call Centers 
entgegengenommen und die Bearbeitiang der eingehenden 
Telefonanrufe, insbesondere der Zeitpunkt des eingehenden 
Anrufs, die Dauer, eine Angabe liber den Mitarbeiter, der den 
Anruf entgegengenommen hat, ein Angabe uber den Grund des 
Anrufs sowie die Axt der Bearbeitung des Anrufes oder auch 
beliebige andere Angaben werden von den Call-Center-Computern 
103, 104, 105 aufgezeichnet. 

Jeder Call-Center-Computer 103, 104, 105 weist auf 

• eine erste Eingangs-/Ausgangsschnittstelle 106, 107, 108 
zum offentlichen Telefonnetz zur Entgegennahme des 
jeweiligen Telefonanrufes, 

• einen Prozessor 109, 110, 111, 

• einen Speicher 112, 113, 114, und 

• eine zweite Eingangs-/Ausgangsschnittstelle 115, 116, 
117 zu einem lokalen Netzwerk 121 des Call Centers. 

Die oben genannten Komponenten innerhalb jedes Call-Center- 
Computers 103, 104, 105 sind mittels eines Compute rbusses 
118, 119, 120 miteinander gekoppelt. 

Die Call-Center-Computer 103, 104, 105 sind mittels des 
lokalen Netzwerkes 121 mit einem Server-Computer 122 
gekoppelt. Der Server-Computer 122 weist eine erste Eingangs- 
/Ausgangsschnittstelle 123 zu dem lokalen Netzwerk 121, einen 
Speicher 124, einen Prozessor 127 sowie eine zur 
Kommunikation liber das Internet eingerichtete zweite 
Eingangs-Musgangsschnittstelle 128 auf, welche Komponenten 
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mittels eines Computerbusses 129 miteinander gekoppelt sind. 
Der Server-Computer 122 dient gemafi diesem 

AusfUhrungsbeispiel als Web-Server-Computer, wie im Folgenden 
noch naher eriautert wird. 

Die von den Call-Center-Computern 103, 104, 105 
auf gezeichneten Daten werden Uber das lokale Netzwerk 121 zu 
dem Server-Computer 122 tibertragen und dort in einer 
Datenbank 126 gespeichert. 

Ferner ist in dem Speicher 124 noch ein statistisches Modell 
125 gespeichert, welches die statistischen Zusammenhange der 
in der Datenbank 12 6 enthaltenen Datenelemente reprasentiert • 

Das statistische Modell 125 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
Modells 125 werden im Folgenden noch im Detail beschrieben. 

Gem^B diesem Ausftihrungsbeispiel der Erfindung wird das 
statistische Modell 125 automatisch in regelmSliigen 
Zeitintervallen erneut, jeweils basierend auf den aktuellsten 
Daten der Datenbank 126, gebildet. 

Das statistische Modell 125 wird von dem Server-Computer 122 
automatisch zur Ubertragung an einen oder an mehrere Client- 
Computer 132 bereitgestellt, Der Client-Computer 132 ist Uber 
eine zweite Kommunikationsverbindung 131, beispielsweise 
einer Kommunikationsverbindung, welche eine Kommunikation 
gem^fi dem TCP/IP-Koramunikationsprotokoll ermoglicht, mit der 
zweiten Eingangs-/Ausgangsschnittstelle 128 des Server- 
Computers 122 gekoppelt - 

Der Client-Computer 132 weist ebenfalls eine Eingangs- 
/Ausgangsschnittstelle 133, eingerichtet zur Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 134 und einen Speicher 135, 
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Das in einer elektronischen Nachricht 130 von dem Server- 
Computer 122 an den Client-Computer 132 Ubertragene 
statistische Modell 125 wird in dem Speicher 135 des Client- 
Computers 132 gespeichert. Der Benutzer des Client-Computers 
132 fUhrt nunmehr eine beliebige, nutzerspezif ische 
statistische Analyse auf das statistische Modell 125 und 
damit ,,indirekt^' auf die Daten der Datenbank 12 6 aus^ ohne 
dass die groBe Datenbank 126 an den Client-Computer 132 
Ubertragen werden muss- 

Ziel der clientseitigen statistischen Analyse kann eine 
Optimierung des Call Centers sein. Gem^fi diesem 
AusfUhrungsbeispiel werden insbesondere Analysen hinsichtlich 
der Beantwortung der folgenden Fragen durchgefUhrt : 

„Nach welcher Wartezeit in einer Warteschlange des Call 
Centers gibt ein Telef onanrufer Ublicherweise auf?^ 

,,Gibt es regionale oder tageszeitliche Abhangigkeiten 
zwischen den in dem Call Center eingehenden Telefonanruf en?"* 

„Zu welchem Zeitpxinkt und in Abhangigkeit welcher anderen 
Merkmale treten welche Anfragen auf und wie viele Mitarbeiter 
sollten dement sprechend in dem Call Center bereitstehen?"* 

„Welche Routing-Strategien fUhren zu welchen Ergebnissen?* 

Somit werden die Analysen zur Beantwortung der oben genannten 
Fragen von dem Benutzer des Client-Computers 132 
durchgefUhrt. AnschlieBend werden dem Betreiber des Call 
Centers aus den Analyseergebnissen geeignete MaJinahmen zur 
optimierten Betreiben des Call Centers gegeben. 

Fig. 2 zeigt eine Computer-Anordnung 200 gemafi einem zweiten 
AusfUhrungsbeispiel der Erfindung, 
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Di.e Computer-Anordnung 200 wird im Bereich der Biotechnologie 
eingesetzt. 

Die Computer-Anordnung 200 weist einen Server-Computer 201 
5 auf, der einen Speicher 202, einen Prozessor 203 sowie eine 
zur Kommunikation gemaii den TCP/IP-Protokollen eingerichtete 
Eingangs-/Ausgangsschnittstelle 204 auf . Die Komponenten sind 
mittels eines Computerbusses 205 miteinander gekoppelt. 

10 In dem Speicher 202 ist eine Datenbank 206 mit genetischen 

Sequenzen oder AminosSuresequenzen zusammen mit den Sequenzen 
zugeordneten Zusatzinformationen gespeichert. 

Fur einen Forscher, gemaJB diesem AusfUhrungsbeispiel ein 
15 Nutzer eines der Client-Computer 209, 210, 211, der die 

Eigenschaften einer (neuen) Sequenz untersucht, ist es haufig 
von erheblichem Interesse, Sequenzen mit gleichen oder 
ahnlichen Eigenschaften zu finden. Zum Durchsuchen der von 
dem Oder den Server-Computern 201 offentlich bereitgestellten 
20 Datenbanken stellt der Forscher mittels des Uber ein 
Kommunikationsnetz 208 mit dem Server-Computer 201 
gekoppelten Client-Computers 209, 210, 211 entsprechende 
Such-Anfragen an den oder die Server-Computer 202. In dem 
Server-Computer 201 ist ein statistisches Modell 207 auf die 
25 gleiche Weise wie gemali dem ersten AusfUhrungsbeispiel 
gebildet worden und dort gespeichert. 

Jeder Client-Computer 209, 210, 211 weist auf 
o eine zur Kommunikation gemafi den TCP/IP-Protokollen 
30 eingerichtete Eingangs-/Ausgangsschnittstelle 212, 213, 

214, 

• einen Prozessor 215, 216, 217, 

• einen Speicher 218, 219, 220. 

35 Nach erfolgter Anfrage eines Client-Computers 209, 210, 211 

tibertragt der Server-Computer 201 das statistische Modell 206 
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an den Client-Computer 209, 210, 211 in einer elektronischen 
Nachricht 221, 222, 223. 

Nach Empfang des statistischen Modells 206 wird von dem 
5 Nutzer des Client-Computers 209, 210, 211 die von ihm zu 
untersuchende Sequenz mit dem statistischen Modell 206 
verglichen. Ergebnis einer statistischen Analyse ist eine 
Angabe, wie viele ausreichend ahnliche Sequenzen in der 
Datenbank 2 06 existieren und durch welche Eigenschaf ten diese 
10 Sequenzen sich auszeichnen. 

Fig, 3 zeigt eine Computer-Anordnung 300 gemafi einem dritten 
Ausfuhrungsbeispiel der Erfindung. 

15 Die Computer-Anordnung 300 weist einen ersten Computer 301 
und einen zweiten Computer 309 auf . 

Der erste Computer 301 weist einen Speicher 302, einen 
Prozessor 303 sowie eine zur Kommunikation gema5 den TCP/IP- 
20 Kommunikationsprotokollen eingerichtete Eingangs- 

/Ausgangsschnittstelie 304 auf, welche mittels eines 
Computerbusses 305 miteinander gekoppelt sind. 

Der erste Computer 301 ist ein Computer eines Autohauses, 
25 welches in der in dem Speicher 302 gespeicherten Kunden- 

Datenbank Informationen zu Vorname und Nachname der Kunden, 
tiber Wohnort und genutzten Fahrzeugtyp, nicht jedoch tiber 
Alter, Familienstand und Gehaltseingang enthait. 

30 Der zweite Computer 309 weist eine zur Kommunikation gemaJ3 

den TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 310, einen Speicher 311 und einen 
Prozessor 312 auf, welche mittels eines Computerbusses 313 
miteinander gekoppelt sind. 

35 

Der zweite Computer 309 ist ein Computer einer mit dem 
Autohaus kooperierenden Bank. In dem Speicher 311 des zweiten 
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Computers 309 ist eine zweite Kiinden-Datenbank 314 
gespeichert. In der zweiten Kunden-Datenbank 314 sind zu den 
Kunden der Bank Informationen zu Vorname und Nachname der 
Kunden, deren Wohnort, Familienstand, Alter und 
5 Gehaltseingang, enthalten, nicht jedoch zu deia von dem 

jeweiligen Kunden genutzten Fahrzeugtyp. Die Bank kann somit 
aus ihren gespeicherten Daten nicht ermitteln, welche 
Familien mit welchem Gehaltseingang typischerweise welche 
Autos nutzen. 
10 ■ • 

Urn diese Informationen zu erhalten, ware die Zusammenlegung 
der beiden Kunden-Datenbanken erf orderlich, was jedoch aus 
Datenschutz-rechtlichen Griinden nicht gestattet ist und von 
den beiden Firmen Ublicherweise auch nicht erwunscht ist. 

15 

Erfindungsgemafi wird ausgenutzt, dass in beiden Datenbanken 
das Wissen jedenfalls approximativ vorhanden ist, um einen 
Zusammenhang beispielsweise zwischen Fahrzeugtyp und 
Gehaltseingang herzustellen. 

20 

In dem ersten Computer wird aus diesem Grund tiber die 
Datenbank ein statistisches Modell 306 gemafi dem EM- 
Lernverfahren gebildet. Das gegenuber der Datenbank 
komprimierte statistische Modell 306 wird zu dem zweiten 
25 Computer 309, welcher mit dem ersten Computer 301 

bidirektional iiber das Internet 308 gekoppelt ist, in einer 
elektronischen Nachricht 307 Ubertragen. 

Nach Empfang des statistischen Modells 306 wird dieses von 
30 dem zweiten Computer 3 09 mit der zweiten Kunden-Datenbank 314 
zu einem statistischen Gesamt -Modell 315 zusammengefuhrt . 

Zur Eriauterung des ZusammenfOhrens des statistischen Modells 
306 mit der zweiten Kunden-Datenbank 314 zu dem statistischen 
35 Gesamt -Modell 315 wird angenommen, dass zwei Partner A und B 
statistische Modelle austauschen wollen. Der Partner A 
verfUgt Uber die Attribute W, X, Y, welche symbolisch fUr 
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eine Vielzahl beliebiger Attribute stehen. Der Partner B 
verftigt tiber die Attribute X, Y, Z. Der Partner B (gemaB 
diesem AusfUhrungsbeispiel das Autohaus) stellt dem Partner A 
(gemaB diesem AusfUhrungsbeispiel die Bank) ein statistisches 
Modell seiner Daten zur Verftlgung, das im Folgenden mit 
Pb(X/Y, Z) bezeichnet wird. 

Ziel des Partners A ist es, aus seinen Daten zusaiamen mit den 
Daten seiner Datenbank ein statistisches Gesamt -Modell 
P(W,X,Y,Z) 2u erstellen. 

Hierzu sind gemafi diesem Ausftihrungsbeispiel die folgenden 
zwei Verfahren vorgesehen: 

• Der Partner A leitet aus dem statistischen Modell 

PB(XfY, Z) ein bedingtes Modell Pb(Z1X,Y) ab, um unter 
dessen Verwendung aus den ihm bekannten Informationen X 
und Y seiner Kunden die Eigenschaft Z seiner Kunden zu 
schatzen. Jeder Kunde bekommt als Wert der Variable Z 
(als Eintrag in einer zusatzlichen Spalte in der 
Datenbank) den Wert zugeordnet, der nach MaBgabe der 
Wahrscheinlichkeitsverteilung Pb(2|X,Y) am 
wahrscheinlichsten ist. Mit den auf diese Weise 
erganzten Informationen W, X, Y und Z Uber jeden Kunden 
kann der Partner A nunmehr Ubliche statistische 
Analyseverf ahren hinsichtlich aller vier Attribute 
anwenden oder ein gemeinsames statistisches Modell, das 
Gesamt-Modell Pb(W,X,Y,Z), welches anschaulich ein 
virtuelles gemeinsames Datenbank-Abbild darstellt, 
erstellen, 

o Statt ftlr das Attribut Z den wahrscheinlichsten Wert zu 
ergSnzen^ kann es in einer alternativen Vorgehensweise 
sinnvoller sein, an Stelle der fehlenden Variable Z eine 
ganze Verteilung tiber seine Werte zu erganzen und beim 
Erzeugen des statistischen Gesamt-Modells zu verwenden. 
Um in diesem Zusammenhang teilweise fehlende Information 
statistisch konsistent im Sinne der so genannten 
Likelihood eines Modells zu handhaben, wird das EM- 
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Lernverfahren eingesetzt. In jedem Lernschritt des 
iterative!! EM~Lernverf ahrens werden basierend auf den 
aktuellen Parametern Schatzungen (Expected Sufficient 
Statistics) tlber die fehlenden Grofien erzeugt, die an 
die Stelle der fehlenden GroBen treten. In dem EM- 
Lernverfahren kann das bedingte Modell Pb(Z|X,Y) dazu 
verwendet werden, auch fUr die Variable Z 
Erwartungswerte oder Expected Sufficient Statistics- 
Werte zu ermitteln und so dieses Lernverfahren 
konsistent zu erweitern, urn ein gemeinsames Modell 
verteilter Daten zu erzeugen. 

Somit hat die Bank nunmehr die gesamte statistische 
Information verfUgbar und kann entsprechende Analysen uber 
die Daten durchftihren. 

In diesem Zusammenhang ist anziomerken, dass das oben 
beschriebene Szenario auch umgekehrt durchgefuhrt werden 
kann, d.h. dass die Bank ein statistisches Modell liber die 
zweite Kunden-Datenbank erstellt und dieses an das Autohaus 
iibermittelt, welches seinerseits ein statistisches Gesamt- 
Modell bildet. FUr das Autohaus ware es beispielsweise 
wUnschenswert, das Alter seiner Kunden zu kennen, deren 
Familienstand und deren Gehaltseingang, oder jedenfalls eine 
Schatzung des Alters, des Familienstandes und des 
Gehaltseingangs . Basierend auf diesen Informationen kGnnen 
den Kunden somit passende Produkte viel gezielter angeboten 
werden, beispielsweise ist einer jungen Familie mit einem 
durchschnittlichen Gehaltseingang sicherlich ein anderes Auto 
anzubieten als einem Single mit einem hohen Gehalt- 

Fig.4 zeigt eine Computer-Anordnung 4 00 gemaii einem vierten 
Ausftihrungsbeispiel der Erfindung. 



35 Gemafi diesem Ausftihrungsbeispiel sind eine Vielzahl von n 
Computern 401, 413, 420 vorgesehen, die jeweils in 
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Ubereinstimmung mit dem dritten AusfUhrungsbei spiel eine 
Kunden-Datenbank f iihr en . 

Der erste Computer 401 weist einen Speicher 402, einen 
5 Prozessor 403 sowie eine zur Kommiinikation geiaafi den TCP/IP- 

Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 404 auf, welche mittels eines 
Computerbusses 405 miteinander gekoppelt sind. 

Der erste Computer 401 ist ein Computer eines Autohauses, 
welches in der in dem Speicher 402 gespeicherten Kunden- 
Datenbank Inf ormationen zu Vorname und Nachname der Kunden, 
liber Wohnort und genutzten Fahrzeugtyp, nicht jedoch liber 
Alter, Familienstand und Gehaltseingang enthalt. 

Uber die Kunden--Datenbank wird von dem ersten Computer 401 
ein erstes statistisches Modell 406 gebildet und in dem 
Speicher 402 gespeichert .* 

Der zweite Computer 413 weist einen Speicher 414, einen 
Prozessor 415 sowie eine zur Kommunikation gemSB den TCP/IP- 
Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnitts telle 416 auf, welche mittels eines 
Computerbusses 417 miteinander gekoppelt sind. 

Der zweite Computer 413 ist ein Computer einer Bank, welche 
in der in dem Speicher 414 gespeicherten Kunden-Datenbank die 
im dritten AusfUhrungsbeispiel genannten Inf ormationen 
enthalt. t)ber die zweite Kunden-Datenbank wird von dem 
zweiten Computer 413 ein zweites statistisches Modell 418 
gebildet und in dem Speicher 414 gespeichert. 

Der n-te Computer 420 hat ebenfalls eine Kunden-Datenbank 
gespeichert. Der n-te Computer 420 weist einen Speicher 421, 
35 einen Prozessor 422 sowie eine zur Kommunikation gemafi den 
TCP/IP-Kommunikationsprotokollen eingerichtete Eingangs- 
/Ausgangsschnittstelle 423 auf, welche mittels eines 
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Computerbusses 424 miteinander gekoppelt sind. Ober die 
Kunden-Datenbank in dem n-ten Computer 420 ist ebenfalls 
mittels des EM-Lernverf ahrens ein statistisches Modell 425 
gebildet und in dem Speicher 421 des n-ten Computers 420 
5 gespeichert. 

Die Computer 401, 413, 420 sind mittels einer jeweiligen 
Kommunikationsverbindung 408 mit einer Client-Computer 409. 

10 Der Client-Computer 409 weist einen Speicher 411, einen 

Prozessor 412 sowie eine zur Kommunikation gemaB den TCP/IP- 
Kommunikationsprotokollen eingeri.chtete Eingangs- 
/Ausgangsschnittstelle 410 auf, welche mittels eines 
Computerbusses 42 6 miteinander gekoppelt sind. 

15 

Die Computer 401, 413, 420 tibermitteln die statistischen 
Modelle 406, 418, 525 an den Client-Computer 409 in 
jeweiligen elektronischen Nachrichten 407, 419, 427, welcher 
diese in dessen Speicher 410 speichert, 

20 

Im Folgenden wird zur einfacheren Darstellung das 
AusfUhrungsbeispiel nur unter BerUcksichtigung des ersten 
statistischen Modells 406 und des zweiten statistischen 
Modells 418 ncLher eriautert. Es ist jedoch anzumerken, dass 
25 erf indungsgem&Ji eine beliebige Anzahl statistischer Modelle 
zu einem Gesamt-Modell zusammengeftihrt werden kann, 
beispielsweise mittels wiederholten DurchfUhrens der im 
Folgenden beschriebenen Verf ahrensschritte . 

30 Im Unterschied zu dem dritten AusfUhrungsbeispiel ist es 
gemali dem dritten AusfUhrungsbeispiel das Ziel, mehrere 
statistische Modelle miteinander zu einem Gesamt-Modell zu 
kombinieren. 



35 



Somit wird in Anlehnung an die im dritten AusfUhrungsbeispiel 
verwendeten Nomenklatur von dem Partner A ebenfalls ein 
statistisches Modell Pa(W,X,Y) erstellt und dann werden die 
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Modelle Pa(W,X,Y) und Pb(X,Y,Z) zu einem statistischen 
Gesamt-Modell P(W,X,Y,Z) koiabiniert. 

Das Gesamt-Modell P(W,X,Y,Z) kann basierend auf den beiden 
Modellen Pa(W,X,Y) und Pb(X,Y,Z) definiert werden als: 

P(W,X,Y,Z) = Pa{W,X,Y)Pb(Z|X,Y) Oder als 

P{W,X,Y,Z) = Pb(X,Y,Z)Pa(W|X,Y) . 

Auch Kpmbinationen aus beiden Vorgehensweisen sind 
erfindungsgemalS vorgesehen. FUr den Partner A ist es am 
sinnvollsten, die erste obige Alternative zu wahlen. Damit 
verfUgt er Ober ein statistisches Gesamt-Modell 42 6, welches 
ihm in einer approximativen Weise erm^glicht, auch die 
Abhangigkeiten zwischen den Attributen W und Z zu analysieren 
(in diesem Ausf Uhrungsbeispiel die Abhangigkeit zwischen 
Fahrzeugtyp und Gehaltseingang) . Basierend auf dem Gesamt- 
Modell 426 werden beispielsweise bedingte 

Wahrscheinlichkeitsverteilungen der Form P(X|Z), z.B. eine 
Verteilung Ober oder eine Affinitat zu Fahrzeugtypen bei 
einem gegebenen Gehaltseingang, ermittelt. Hierzu wird Ober 
die Variablen X und Y marginalisiert . 

Zur Eriauterung wird angenommen, dass die Ergebnisse aus dem 
Gesamt-Modell 426 in einer Art eines zweistufigen Prozesses 
zustande kommen. Zunachst wird aus der Variable W auf die 
gemeinsamen Variablen X und Y basierend auf dem Modell 
Pa{W,X,Y) geschlossen, Entsprechend alien danach erlaubten 
Kombinationen fur die Variablen X und Y wird die bedingte 
Wahrscheinlichkeitsverteilung Pb(Z|X,Y) (Pradiktion der 
Variable Z aus den Variablen X und Y) genutzt, urn die 
Verteilung fUr die Variable Z zu bestimmen. 

Im Unterschied zu dem Fall, in dem alle vier Variablen in 
einer Datenbank zu finden sind, erfolgt die Schlussf olgerung 
somit erfindiingsgemaii indirekt; ahnlich wie bei einer 
Fltlsterpost konnen dabei Informatlonen verloren gehen. 
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Im schlimmsten Fall, namlich wenn kein Uberlapp zwischen den 
beiden statistischen Abbildern vorliegt, dann ist auch keine 
Kombination der beiden Modelle m5glich, Allerdings ist 
5 beispielsweise fUr den Fall, dass geitieinsame Variablen in den 
beiden Modellen vorhanden sind, moglich, ein Gesamt-Modell zu 
bilden, selbst wenn in den beiden Ausgangs-Datenbanken keine 
geme ins amen Kunden, beispielsweise kein geiaeinsamer 
Kundenschiassel, vorhanden ist. 

10 

Das Gesamt-Modell 426 P(W,X,Y,Z) kann numerisch einfach 
gehandhabt warden, wenn der Oberlapp zwischen diesen 
statistischen Modellen nicht zu groii ist, vorzugsweise 
kleiner als 10 gemeinsame Variablen. In dem Fall eines groJien 
15 „t)berlapp-Raums^ k5nnen zusatzliche Approximationen verwendet 
werden, urn die Ausfahrung der folgenden Svimmen zu 
beschleunigen, welche gemaU den obigen Ausfahrungsbeispielen 
liber alle gemeinsamen Zustande der gemeinsamen Variablen X 
und Y gebildet werden miissen: 

20 

P(W|Z) oc P^(W, X, y) . %(Z|X, y) 
bzw. 

25 P(W, Z) = 2] P?v(W/ X, y) . Efe(z|X, y) . 

Die Summen konnen insbesondere sehr geschickt approximiert 

werden basierend auf einem Ansatz durch Einfuhren einer 

zusatzlichen ktinstlichen Variable H und zusatzlichen 

30 bedingten Verteilungen (Tafeln im Falle diskreter Variable) 
p(h|x, y) und p(z|h) der Form: 



Papprox(W. Z) « 2 Pa(W/ X, Y)2] P(H I X, Y) • Efe(Z | H) 
x,y h 
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bzw. 

PapproxW, X, Y, Z) « Fj^W, X, y)^ P{H | X, Y) .Pb(Z | H) . 

h 

5 Die Struktur bzw. die Parametrisierung der bedingten 

Verteilungen p(h1x, y) und p(z|h) bzw. die Form der Abhangigkeit 

zwischen X,Y und H einerseits und H und Z andererseits wird 
so gewcLhlt/ dass die obigen Summen einfach auszuftihren sind. 
Die Parameter der bedingten Verteilungen p(Hjx, y) und p(z]h) 

10 werden so bestimmt, dass die approximative Gescontverteilung 
Papprox(W/ X, Y, Z) moglicht gut der gewiinschten Verteilung 

P(W, X, Y, Z) = E^(W, X, Y) ■ Pb(z|X, y) 

15 entspricht. Als Kostenfunktion kann hierbei insbesondere die 
Log-Likelihood bzw. die Kullback-Leibler-Distanz verwendet 
werden. Als Optimierungsverf ahren bieten sich daher wiederuia 
ein EM~Lernverf ahren oder ein Gradienten-basiertes 
Lernverf ahren an . . 

20 

Das Auffinden optimaler Parameter kann und darf durchaus 
rechenaufwendig sein. Sobald die beiden 
VJahrscheinlichkeitsmodelle dann zu einem Gesamtmodell 
^fusioniert"^ sind kann das Gesamtmodell in einer sehr 
25 effizienten Art und Weise genutzt werden. 

Es bietet sich insbesondere an, die Variable H als eine 
versteckte Variable einzufUhren, also die Verteilung 
P{W,X/Y,H) zu parametrisieren als 

30 

p(w, x, Y, h) = p(h) . p(w, X, y|h) 

mit einer so genannten a priori Verteilxing P(H) . 



35 In dem Fall in dem das Modell P(W,X,Y) bereits urspriinglich 
als ein Latent Variable Model parametrisiert wurde. 
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E^(W, X, Y) = 2 Z I H) . Fj^iU), 

h 

kann unmittelbar die bereits vorhandene latente Variable H 
5 genutzt werden, 

Statt einer versteckten Variable H kOnnen auch mehrere 
Variablen eingeftihrt werden. Gleichzeitig kann auch fUr das 
Modell PB zur Vereinf achung der Nxmerik eine versteckte 
10 Variable K eingeftihrt werden, Eine Approximation des 
Gesamtmodells P(W,X,Y,Z) nimmt damit z.B. die Form an 

P(W, X, Y, Z) « Pr^(X, Y, Z 1 H) . Fp^imZ P(K I H) . Fq{Z | K) . 
h k 

15 In diesem Modell konnen Siimmen iiber den Raum des llberlapps 
bestehend aus X und Y einfach durch bekannte 
Inferenzverf ahren (beispielsweise das so genannte Junction- 
Tree-Verfahren) ausgeftihrt werden. FUr die Fusion der beiden 
Modell e ist lediglich die bedingte Verteilung p(i^h) durch 

20 bekannte Lernverf ahren zu bestimmen. 

Um das Ziel zu erreichen kleine, austauschbare jedoch aber 
sehr genaue „Abbilder einer Datenbank^ zu generieren^ sind 
insbesondere sehr skalierbare Lernverf ahren, die hoch 

25 komprimierte Abbilder generieren, erwiinscht. Gleichzeitig 
sollen sich die Abbilder effizient fusionieren, d.h. 
zusammenftihren lassen, wozu laan insbesondere auch sehr 
effizient mit fehlenden Informationen umgehen konnen sollte. 
Bekannte Lernverf ahren sind insbesondere dann langsam, wenn 

30 in den Daten viele der Belegungen der Feider fehlen. 

Fig, 5 zeigt eine Computer-Anordnung 500 gemafi einem funften 
Ausfuhrungsbeispiel der Erfindung. 
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Die Computer-Anordnung . 500 wird im Rahmen des Austauschs von' 
Kundeninformation, gemafi> diesein Ausf uhrungsbeispiel im Rahmen 
des Austauschs von Adressinformation von Kunden, eingesetzt. 
Die Computer-Anordnung 500 weist einen Server-Computer 501. 
5 sowie einen oder mehrere mit diesem Uber ein 

Telekommunikationsnetz 502 verbundenen Client-Computer 503 
auf . 

Der Server-Computer 501 weist einen Speicher 504, einen 
10 Prozessor 505 sowie eine zur Kommunikation liber das Internet 
eingerichtete Eingangs-/Ausgangsschnittstelle 506 auf, welche 
Komponenten mittels eines Computerbusses 507 miteinander 
gekoppelt sind- Der Server-Computer 501 dient gemali diesem 
Ausftihrungsbeispiel als Web-Server-Computer, wie im Folgenden 
15 noch naher erlautert wird. 

In dem Speicher 504 ist eine grofie Kunden-Datenbank 508 
(insbesondere mit Adressinformation Uber die Kunden und das 
Kaufverhalten der Kunden beschreibende Information) 

20 gespeichert. Ferner ist in dem Speicher 504 noch ein 

statistisches Modell 509, welches von dem Server-Computer 501 
ilber die Kunden-Datenbank 508 gebildet worden ist, 
gespeichert, welches die statistischen Zusammenhange der in 
der Kunden-Datenbank 508 enthaltenen Datenelemente 

25 reprasentiert . 

Das statistische Modell 509 wird unter Verwendung des an sich 
bekannten EM-Lernverf ahrens gebildet. Andere alternative 
bevorzugt eingesetzte Verfahren zum Bilden des statistischen 
30 Modells 509 werden im Folgenden noch im Detail beschrieben. 

Gemaii diesem Ausftihrungsbeispiel der Erfindung wird das 
statistische Modell 509 automatisch in regelmafiigen 
vorgegebenen Zeitintervallen erneut, jeweils basierend auf 
35 den aktuellsten Daten der Kunden-Datenbank 508, gebildet- 
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Das statistische Modell 509 wird von dem Server-Computer 501 
automatisch zur tJbertragung an den oder an mehrere Client- 
Computer 503 bereitgestellt . 

Der Client-Computer 503 weist ebenfalls eine Eingangs- 
/Ausgangsschnittstelle 510, eingerichtet zur Kommunikation 
gemafi dem TCP/IP-Kommunikationsprotokoll auf sowie einen 
Prozessor 511 und einen Speicher 512. Die Komponenten des 
Client-Computers sind mittels eines Computerbusses 513 
miteinander gekoppelt. 

Das in einer elektronischen Nachricht 514 von dem Server- 
Computer 501 an den Client-Computer 503 tibertragene 
statistische Modell 509 wird in dem Speicher 512 des Client- 
Computers 503 gespeichert. 

In diesem Zusammenhang ist anzumerken, dass in dem 
statistischen Modell 509 die Details der Kunden-Datenbank 
508, insbesondere die tatsachlichen Adressen der Kunden, 
nicht enthalten ist. Das statistische Modell 509 enthait 
allerdings statistische Information aber das Verhalten, 
insbesondere ilber das Kaufverhalten der Kunden. 

Der Benutzer des * Client-Computers 503 wahlt nunmehr eine ftlr 
ihn interessante Gruppe von Kunden, d.h. einen fur ihn 
interessanten Teil 515 des statistischen Modells 509, der eir 
far das Unternehmen des Benutzers des Client-Computers 503 
interessierendes Kaufverhalten beschreibt, aus . Die 
Information 515 tiber den ausgewahlten Teil des statistischen 
Modells 509 tlbertragt der Client-Computer 503 in einer 
zweiten elektronischen Nachricht 516 zu dem Server-Computer 
501, 

Unter Verwendung der empfangenen Information liest der 
Server-Computer 501 die mittels des Teils 515 des 
statistischen Modells 509 bezeichneten Kunden land die 
zugehorige Kunden-Detailinformation 517, insbesondere die 
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Adressen der Kiinden, aus der Kunden-Datenbank 508 aus und 
Ubermittelt die ausgelesene Kunden-Detailinformation 517 in 
einer dritten elektronischen Nachricht 518 zu dem Client- 
Computer 503. 

5 

Auf diese Weise ist es moglich, beispielsweise fiir eine 
Marketing-Kampagne seitens des Benutzers des Client-Computers 
503 gezielt die Adressen der gemaJi der Kunden-Datenbank 508 
fiir die Kampagne interessantesten Kunden des Unternehmens des 
10 Server-Computers 501 auszuwShlen und von dem Server-Computer 
501 zu erbitten. Ein erheblicher Vorteil ist ferner darin zu 
sehen, dass der Server-Computer 501 nur die Inf orraationen an 
den Client-Computer 503 Ubermittelt, die auch an diesen 
Ubermittelt werden dUrfen. 

15 

Diese Obermittlung erfolgt gemafi einer Ausgestaltung der 
Erfindung gegen Bezahlung. Anders ausgedruckt wird somit eine 
sehr effizientes so genanntes „On-Line Listbroking"* 
realisiert. 

20 

Im Folgenden werden verschiedene skalierbare Verfahren zum 
Bilden eines statistischen Modells angegeben, 

Zur besseren Veranschaulichung der bevorzugt eingesetzten 
25 Verbesserung eines EM-Lernverf ahrens im Falle eines Naiven 
Bayesianischen Cluster Modells werden im Folgenden einige 
Grundlagen des EM-Lernverf ahrens ncLher erlSutert: 

Mit X = {^k' ^ = 1, ...,k} wird einen Satz von K statistischen 
30 Variablen (die z.B. den Feldern einer Datenbank entsprechen 
konnen) bezeichnet • 

Die Zustande der Variablen werden mit kleinen Buchstaben 
bezeichnet. Die Variable Xi kann die Zustande xi^i, xi^2/ 
35 annehmen, d.h. Xi e ^i,i/i = 1, .../Li}. Li ist die Anzahl der 
Zustande der Variable Xi. Ein Eintrag in einem Datensatz 
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• (einer Datenbank) besteht nun aus Werten ftir alle Variablen, 
wobei x'^ = ^1 f ^3' •••) 7C-ten Datensatz bezeichnet. In 

dem TC-ten Datensatz ist die Variable Xi in dem Zustand xj, 
die Variable X2 in dem Zustand X2 f usw. Die Tafel hat M 

5 Eintrage, d.h. ^'^z 7C = 1, ...,m|. ZusStzlich gibt es eine 
versteckte Variable oder eine Cluster-Variable, die im 
Folgenden mit CI bezeichnet wird; deren Zustande sind 
{©i, i = 1, .../N}. Es gibt also N Cluster. 

10 In einem statistischen Clustering-Modell beschreibt P(0) eine 
a priori Verteilung; P(cDi) ist das a priori Gewicht des i-ten 
Clusters und p(x|cDj_) beschreibt die Struktur des i-ten 

Clusters oder die bedingte Verteilung der beobachtbaren (in 
der Datenbank enthaltenen) GroBen X = {X]^, k = 1, ...,k} in dem 

.15 i-ten Cluster. Die a priori Verteilung und die bedingten" 

Verteilungen fUr jedes Cluster parametrisieren zusammen ein 
gemeinsames Wahrscheinlichkeitsmodell auf X o f2 bzw. auf X. 

In einem Naiven Bayesian Network wird vorausgesetzt, dass 
K 

20 p(x|a)i) mit f][ p(X}^|cDi) faktorisiert werden kann. 
k=l 

Im Allgemeinen wird darauf gezielt, die Parameter des 
ModellS/ also die a priori Verteilung p(n) und die bedingten 
Wahrscheinlichkeitstaf eln p(x|co) derart zu bestimmen, dass das 

25 gemeinsame Modell die eingetragenen Daten moglichst gut 

widerspiegelt . Ein entsprechendes EM-Lernverf ahren besteht 
aus einer Reihe von Iterationsschritten, wobei in jedem 
Iterationsschritt eine Verbesserung des Modells (im Sinne 
einer so genannten Likelihood) erzielt wird. In jedem 

30 Iterationsschritt werden neue Parameter p^®^(.,.) basierend 

auf den aktuellen oder ^^alten"* • Parametern p^'*'^(,-,) geschatzt. 

Jeder EM-Schritt beginnt zunachst mit dem E-Schritt, in dem 
^Sufficient Statistics"" in daftir bereitgehaltenen Tafeln 
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ermittelt werden. Es wird mit Wahrscheinlichkeitstaf eln 
begonnen, deren EintrSge mit Null-Werten initialisiert 
werden. Die Felder der Tafeln werden im Verlauf des E- 
Schrittes mit den so genannten Sufficient Statistics s(n) und 
5 s(x, Q) gefUlltr indem fUr jeden Datenpunkt die fehlenden 
Infonaationen (also insbesondere die Zuordnung jedes 
Datenpunktes zu den Clustern) durch Erwartungswerte erganzt 
werden. 

10 Um Erwartungswerte fUr die Clustervariable n zu berechnen 
ist die a posteriori Verteilung p^"^^^Wi|x^^ zu ermitteln. 

Dieser Schritt wird auch als ,,Inf erenzschritf* bezeichnet. 

Im Falle eines Naive Bayesian Network ist die a posteriori 
15 Verteilung fUr CI nach der Vorschrift 

p^^^fwiix^) = 4p"'^(wi)np^''^khi) 

^ ^ k=l 

fUr jeden Datenpunkt aus den eingetragenen Inf ormationen 

20 zu berechnen, wobei — eine vorgebbare Normierungskonstante 

ist . 

Das Wesentliche dieser Berechnung besteht aus der Bildung des 
Produkts p^-^^[x]^|a)i] Uber alle k = 1, ,..,K. Dieses Produkt muss 
25 in jedem E-Schritt fUr alle Cluster i = 1, .,.,N und fur alle 
Datenpunkte x^, u = 1, ,..,M gebildet werden. 

Ahnlich aufwendig oft noch aufwendiger isf der 
Inferenzschritt fur die 7\nnahme anderer 

30 Abhangigkeitsstrukturen als einem Naive Bayesian Network, und 
beinhaltet damit den wesentlichen numerischen Aufwand des EM- 
Lernens . 
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Die Eintrage in den Taf eln s(Q) und ft) andern sich nach 

Bildung des obigen Produktes fur jeden Datenpunkt 

x^, 7C = 1, ...,M, da s((Di) laiti p^-'-^^milx^^ fUr alle i addiert 

wird, bzw. eine Simme alle p^'^^^CDijx^ j gebildet wird. Auf 

5 entsprechende Weise wird s(x, ©i) (bzw, s(x)c, CDi) fUr alle 

Variabeln k im Falle eines Naive Bayesian Network) jeweils um 
p^-^^^Oijx^J ftir alle Cluster i addiert. Dieses schlielit 

zunachst den E (Expectation) -Schritt ab. 

10 Anhand dieses Schrittes werden neue Parameter p^®^(n) und 

p^®^(x]n) far das statistische Modell berechnet, wobei p(xl©i) 

die Struktur des i-ten Cluster oder die bedingte Verteilung 
der in der Datenbank enthaltenden Grofien X in diesem i-ten 

Cluster darstellt, 

15 

Im M (Maximisation) -Schritt werden unter Optimierung einer 
allgemeinen log Likelihood 

L = Z log S p(x>i)p(coi) (1) 
7C = 1 i = l 

20 

neue Parameter p^®^(n) und p^®^(x|fi), welche auf den bereits 
berechneten Sufficient Statistics basieren, gebildet. 

Der M-Schritt bringt keinen wesentlichen numerischen Aufwand 
25 mehr mit sich, 

Somit ist klar, dass der wesentliche Aufwand des Algorithmus 
in dem Inf erenzschritt bzw. auf die Bildung des Produktes 
K / \ 

p^-^^^j^jmij und auf die Akkumulierung der Sufficient 

k=l 

30 Statistics ruht. 
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Die Bildung von zahlreichen Null-Elementen in den 
Wahrscheinlichkeitstafeln P^"^^(x|a)i) bzw, P^'^^CxklcDi) lasst 
sich jedoch durch geschickte Datenstrukturen und Speicherung 
von Zwischenergebnissen von einem EM-Schritt z\m nachsten 
5 dazu ausnutzen, die Produkte effizient zu berechen. 

Zum Beschleunigen des EM-Lernverf ahrens wird die Bildung 
eines Gesamtproduktes in einem obigem Inf erenzschritt , 
welcher aus Faktoren von a posteriori Verteilungen von 

10 Zugeh5rigkeitswahrscheinlichkeiten ftlr alle eingegebene 

Datenpunkte besteht, wie gewGhnlich durchgefiihrt wird, sobald 
die erste Null in den dazu gehorenden Faktoren auftritt, wird 
die Bildung des Gesamtproduktes jedoch abgebrochen. Es iSsst 
sich zeigen, dass fiar den Fall, dass in einem EM-Lernprozess 

15 ein Cluster fur einen bestimmten Datenpunkt das Gewicht Null 
zugeordnet bekommt, dieser Cluster auch in alien weiteren EM- 
Schritten fUr diesen Datenpunkt das Gewicht Null zugeordnet 
bekommen wird, 

20 Somit wird eine sinnvolle Beseitigung von Uberf liissigen 
nvimerischen Aufwand gewahrleistet, indem entsprechende- 
Ergebnisse von einem EM-Schritt zum nachsten 

zwischengespeichert werden und nur ftlr die Cluster, die nicht 
das Gewicht Null haben, bearbeitet werden. 

25 

Es ergeben sich somit die Vorteile, dass aufgrund des 
Bearbeitungsabbruchs beim Auftreten eines Clusters mit Null 
Gewichten nicht nur innerhalb eines EM-Schrittes sondern auch 
ftir alle weiteren Schritte, besonders bei der Bildung des 
30 Produkts im Inf erenzschritt, das EM-Lernverf ahren insgesamt 
deutlich beschleunigt wird. 

Im Verfahren zur Ermittlung einer in vorgegebenen Daten 
vorhandenen Wahrscheinlichkeitsverteilung werden 
35 ZugehOrigkeitswahrscheinlichkeiten zu bestimmten Klassen nur 
bis zu einem Wert nahezu 0 in einem iterativen Verfahren 
berechnet, und die Klassen mit 
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Zugehorigkeitswahrscheinlichkeiten xinterhalb eines 
auswahlbaren Wertes im iterativen Verfahren nicht weiter 
verwendet . 

5 In einer Weiterbildung des Verfahrens wird eine Reihenfolge 
der zu berechnenden Faktoren derart bestiimt, dass der 
Faktor, der zu einem selten auftretenden Zustand einer 
Variabel gehort, als erstes bearbeitet wird. Die selten 
auftretenden Werte konnen vor Beginn der Bildung des Produkts 
10 derart in einer geordneten Liste gespeichert werden, dass die 
Variabeln je nach Haufigkeit ihrer Erscheiniing einer Null in 
der Liste geordnet sind, 

Es ist weiterhin vorteilhaft, eine logarithmische Darstellung 
15 von Wahrscheinlichkeitstafeln zu benutzen. 

Es ist weiterhin vorteilhaft, eine diinne Darstellung (sparse 
representation) der Wahrscheinlichkeitstafeln zu benutzen, 
z.B. in Form einer Liste, die nur' die von Null verschiedenen 
2 0 Elemente enthalt. 

Ferner werden bei der Berechnung von Sufficient Statistics 
nur noch die Cluster beriicksichtigt, die ein von Null 
verschiedenes Gewicht haben. 

25 

Die Cluster, die ein von Null verschiedenes Gewicht haben, 
konnen in eine Liste gespeichert werden, wobei die in der 
Liste gespeicherte Daten Pointer zu den entsprechenden 
Cluster sein konnen. 

30 

Das Verfahren kann weiterhin ein Expectation Maximisation 
Lernprozess sein, bei dem in dem Fall dass ftir ein Datenpunkt 
ein Cluster ein a posteriori Gewicht ^Null"* zugeordnet 
bekommt, dieser Cluster in alien weiteren Schritten des EM- 
35 Verfahrens far diesen Datenpunkt das Gewicht Null erhait und 
dass dieser Cluster in alien weiteren Schritten nicht mehr 
berticksichtigt werden muss. 
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Das Verfahren kann dabei nur noch tiber Cluster laufen, die 
ein von Null verschiedenes Gewicht haben. 

5 !• Erstes Beispiel in einem Inf erenzschritt 

a) Bildung eines Gesamtproduktes mit Unterbrechung bei 
Nullwert 

10 FUr jeden Cluster ©i in einem Inf erenzschritt wird die 

Bildung eines Gesamtproduktes durchgeftihrt . Sobald die erste 
Null in den dazu gehorenden Faktoren, welche beispielsweise 
aus einem Speicher, Array oder einer Pointerliste 
herausgelesen werden kc3nnen, auftritt, wird die Bildung des 

15 Gesamtproduktes abgebrochen. 

Im Falle des Auftretens eines Nullwertes wird dann das zu dem 
Cluster gehorende a posteriori Gewicht auf Null gesetzt, 
Alternativ kann auch zuerst geprtift werden, ob zumindest 
20 einer der Faktoren in dem Produkt Null ist. Dabei werden alle 
Multiplikationen ftir die Bildung des Gesamtproduktes nur dann 
durchgeftihrt, wenn alle Faktoren von Null verschieden sind. 

Wenn hingegen bei einem zu dem Gesamtprodukt gehorender 
25 Faktor kein Nullwert auftritt, so wird die Bildung des 

Produktes wie normal fortgefUhrt und der nachste Faktor aus 
dem Speicher, Array oder der Pointerliste herausgelesen und 
zur Bildung des Produktes verwendet, 

30 b) Auswahl einer geeigneten Reihenfolge zur Beschleunigung 
der Datenverarbeitung 

Eine geschickte Reihenfolge wird derart gew^hlt, dass, falls 
ein Faktor in dem Produkt Null ist, dieser Faktor mit hoher 
35 Wahrscheinlichkeit sehr bald als einer der ersten Faktoren in 
dem Produkt auftritt. Somit kann die Bildung des 
Gesamtproduktes sehr bald abgebrochen werden. Die Festlegung 
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der neuen Reihenfolge kann dabei entsprechend der Haufigkeit, 
mit der die Zustande der Variablen in den Daten auftreten, 
erfolgen. Es wird ein Faktor der zu einer sehr selten 
auftretenden Zustand einer Variable geh5rt, als erstes 
5 bearbeitet. Die Reihenfolge, in der die Faktoren bearbeitet 
werden, kann somit einmal vor dem Start des Lernverf ahrens 
festgelegt warden, indem die Werte der Variablen in einer 
entsprechend geordneten Liste gespeichert werden. 

10 c) Logarithmische Darstellung der Tafeln 

Urn den Rechenaufwand des oben genannten Verfahrens moglichst 
einzuschranken, wird vorzugsweise eine logarithmische 
Darstellung der Tafeln benutzt, um beispielsweise Underflow- 

15 Probleme. zu verineiden. Mit dieser Funktion k5nnen 

ursprtinglich Null-Elemente zum Beispiel durch einen positiven 
Wert ersetzt werden, Somit ist eine aufwendige Verarbeitung 
bzw. Trennungen von Werten, die nahezu Null sind und sich 
voneinander durch einen sehr geringen Abstand unterscheiden, 

20 nicht welter notwendig. 

d) Umgehung von erhtthter Sumiciierung bei der Berechnung von 
Sufficient Statistics 

25 In dem Fall, dass die dem Lernverf ahren zugegebenen 
stochastischen Variablen eine geringe 

ZugehGrigkeitswahrscheinlichkeit zu einem bestimmten Cluster 
besitzen, werden im Laufe des Lernverf ahrens viele Cluster 
das a posteriori Gewicht Null haben. 

30 

Um auch das Akkumulieren der Sufficient Statistics in dem 
darauf folgenden Schritt zu beschleunigen, werden nur noch 
solche Cluster in diesem Schritt berticksichtigt, die ein von 
Null verschiedenes Gewicht haben, 

35 

Dabei ist es vorteilhaft, die von Null verschiedenen Cluster 
in einer Liste, einem Array oder einer ahnlichen 
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Datenstruktur gespeichert werden, die es erla\ibt, nur die von 
Null verschiedenen Eleiuente zu speichern. 

II. Zweites Beispiel in einem EM Lernverf ahren 

a) Nicht-BerUcksichtigung von Cluster mit Null-Zuordnungen 
ftir einen Datenpunkt 

Insbesondere wird hier in einem EM-Lernverf ahren von einem 
Schritt des Lernverf ahr ens zum nachsten Schritt fUr jeden 
Datenpunkt gespeichert^ welche Cluster durch Auftreten von 
Nullen in den Tafeln noch erlaxibt sind und welche nicht mehr. 

Wo im ersten Beispiel Cluster, die durch Multiplikation mit 
Null ein a posteriori Gewicht Null erhalten, aus alien 
weiteren Berechnungen ausgeschlossen werden, um dadurch 
numerischen Aufwand zu sparen, werden in gemafi diesem 
Beispiel auch von einem EM--Schritt zum nachsten 
Zwischenergebnisse beziiglich Cluster-Zugehorigkeiten 
einzelner Datenpunkte (welche Cluster bereits ausgeschlossen 
bzw. noch zuiassig sind) in zusStzlich notwendigen 
Datenstrukturen gespeichert. 

b) Speichern einer Liste mit Referenzen auf relevante Cluster 

FUr jeden Datenpunkt oder fUr jede eingegebene stochastische 
Variable kann zunachst eine Liste oder eine ahnliche 
Datenstruktur gespeichert werden, die Referenzen auf die 
relevanten Cluster enthalten, die ftir diesen Datenpunkt ein 
von Null verschiedenes Gewicht bekommen haben. 

Insgesamt werden in diesem Beispiel nur noch die erlaubten 
Cluster, allerdings ftir jeden Datenpunkt in einem Datensatz, 
gespeichert . 



Die beiden obigen Beispiele konnen miteinander kombiniert 
werden, was den Abbruch bei ,,Null'-Gewichten im 
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Inferenzschritt ermoglicht, wobei in folgenden EM-Schritten 
nur noch die zulassigen Cluster nach dem zweiten Beispiel 
berticksichtigt warden. 

5 Eine zweite Variante des EM-Lernverfahrens wird im Folgenden 
naher erlautert. Es ist darauf hinzuweisen, dass dieses 
Verfahren unabhangig von der Verwendung des auf diese Weise 
gebildeten statistischen Modells ist. 

10 Bezugnehmend auf das oben beschriebene EM-Lernverf ahren ISsst 
sich zeigen, dass das ErgSnzen fehlender Information nicht 
fur alle GrGBen erfolgen muss. Erf indungsgemafi wurde erkannt, 
dass ein Teil der fehlenden Information ^Agnoriert'' werden 
kann. Anders ausgedrUckt bedeutet dies, dass nicht versucht 

15 wird, etwas tiber eine Zufallsvariable Y zu lernen aus Daten, 
in denen keine Information iiber die Zufallsvariable Y (einem 
Knoten Y) enthalten ist oder dass nicht versucht. wird, etwas 
tiber die Zusammenhange zwischen zwei Zuf allsvariablen Y und X 
(zwei Knoten Y und X) aus Daten, in denen keine Information 

2 0 tiber die Zuf allsvariablen Y und X enthalten ist. 

Damit wird nicht nur der numerische Aufwand zur Durchftihrung 
des EM-Lernverfahrens wesentlich reduziert, sondern es wird 
ferner erreicht, dass das EM-Lernverf ahren schneller 
25 konvergiert. Ein zusatzlicher Vorteil ist darin zu sehen, 
dass statistische Modelle mittels dieser Vorgehensweise 
leichter dynamisch aufbauen lassen, d.h, w^hrend des 
Lernprozesses kOnnen leichter Variablen (Knoten) in einem 
Netz, dem gerichteten Graphen, erg^nzt werden. 

30 

Als anschauliches Beispiel fUr das erf indungsgemaBe Verfahren 
wird angenommen, dass ein statistisches Modell Variablen 
enthait, die beschreiben, welche Bewertung ein Kinobesucher 
einem Film gegeben hat. FUr jeden Film gibt es eine Variable, 
35 wobei jeder Variable eine Mehrzahl von Zustanden zugeordnet 
ist, wobei jeder Zustand jeweils einen Bewertungswert 
reprasentiert- FUr jeden Kunden gibt es einen Datensatz, in 
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dem gespeichert ist, welcher Film welchen Bewertungswert 
erhalten hat, Wird ein neuer Film angeboteii/ so fehlen 
anfangs die Bewertungswerte fUr diesen Film. Mittels der 
neuen Variante des EM-Lernverfahrens ergibt sich nunmehr die 
M5glichkeit, das EM-Lernverf ahren bis zu dem Erscheinen des 
neuen Films nur mit den bis dorthin bekannten Filmen 
durchzufOhren, d.h. den neuen Film {d.h. allgemein den neuen 
Knoten in dem gerichteten Graphen) zxinachst zu ignorieren. 
Erst mit Erscheinen des neuen Films wird das statistische 
Modell um eine neue Variable (einen neuen Knoten) dynamisch 
erganzt und die Bewertungen des neuen Films werden 
berticksichtigt . Die Konvergenz des Verfahrens im Sinne der 
log Likelihood ist dabei noch immer gewahrleistet; das 
Verf ahren konvergiert sogar schneller, 

Im Folgenden wird eriautert, unter welchen Bedingungen 
fehlende Inf ormationen nicht berticksichtigt werden mtissen. 

Zur Erlauterung der Vorgehensweise wird folgende Notation 
verwendet. Mit H wird ein versteckter Knoten bezeichnet. Mit 

wird ein Satz von M beobachtbaren Knoten in 
dem gerichteten Graphen des statistischen Modells bezeichnet. 

Es wird ohne Einschrankung der Allgemeingtiltigkeit im 
Folgenden ein Bayesianisches Wahrscheinlichkeitsmodell 
angenommen, welches gemafi folgender Vorschrift faktorisiert 
werden kann : 



Es ist in diesem Zusaimnenhang anzumerken, dass die 
beschriebene Vorgehensweise auf jedes statistische Modell 
anwendbar ist, und nicht auf ein Bayesianisches 
Wahrscheinlichkeitsmodell beschrankt ist, wie spater noch im 
Detail dargelegt wird. 
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Mit Grofibuchstaben warden im Weiteren Zuf allsvariablen 
bezeichnet/ wohingegen mit einem Kleinbuchstaben eine Instanz 
einer jeweiligen Zuf allsvariable bezeichnet wird. 

5 

Es wird ein Datensatz mit N Datensatzelementen i = 1, ...,n} 

angenommen, wobei fUr jedes Datensatzelement nur ein Teil der 
beobachtbaren Knoten tatsSchlich beobachtet wird. FUr das i- 
te Datensatzelement wird angenommen, dass die Knoten Xi 
10 beobachtet wird und dass die Beobachtungswerte der Knoten Yi 
f ehlen. 



Es gilt also: 

15 Xi = . (3) 

Es ist zu bemerken, dass ftlr jedes Datensatzelement ein 
unterschiedlicher Satz von Knoten Xj beobachtet werden kann, 
d.h. dass gilt: 

20 

Xi X j far i 7i j . ( 4 ) 



Die Indizes fUr vorhandene Knoten werden mit k bezeichnet, 
d.h. X^ = ^i f K = 1, ...,Kij, die Indizes fUr nicht vorhandene 

25 Knoten werden mit A. bezeichnet/ d.h. Yj^ = |Y^, A. = 1, ...,Lij. 

Im Falle eines Bayesianischen Netzes weist das tlbliche EM- 
Lernverf ahren die folgenden Schritten auf / wie oben schon 
kurz dargestellt: 

30 

1) E-Schritt 

Das Verfahren wird mit „leeren* Tabellen SS(h) und 
sslo'^, h) i = 1, ...,M (initialisiert mit „Nullen^ gestartet, um 
35 darauf basierend die Schatzungen (Sufficient Statistics- 

Werte) zu akkumulieren. FUr jedes Datensatzelement Oi werden 
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die a posteriori Verteilung p(Hjxi)ftir den versteckten Knoten 
H sowie die a posteriori Verbund-Verteilung p|h, Y7^|xi) fUr 
jeden der nicht vorhandenen Knoten Yi zusammen mit dem 
versteckten Knoten H berechnet. 

FUr jedes Datensatzelement i werden die Schatzungen fUr das 
statistische Modell akkumuliert gemSfi folgenden Vorschrif ten: 

ss(h) + = 21 ^fe)' 

i 

Ss(x^ = x^, h] + = p(H|xi), V vorhandenen Knoten , (6) 

Ss(y^', h) + = p(h, Y^[xj^) V nicht vorhandenen Knoten Y^* . 

(7) 

Mit dem Symbol += wird die Aktualisierung, d.h. die 
Akkumulation der Tabellen fiir die Schatzungen gemafi den 
Werten der jeweiligen „rechten Seite"* der Gleichung 
bezeichnet . 

2) M-Schritt 

In dem M-Schritt werden die Parameter fUr alle Knoten gemSB 
folgenden Vorschrif ten aktualisiert : 

p(h) oc SS(h), (8) 

p(o^|h) oc Ss(o^, h), (9) 

30 wobei mit dem Symbol oc angegeben wird, dass die 

Wahrscheinlichkeits-Tabellen beim Obertragen von SS auf P zu 
normieren sind. 



15 



20 



25 



35 



Gemaii dem EM-Lernverf ahren werden die Erwartungswerte ftlr die 
nicht vorhandenen Knoten Yi berechnet und entsprechend den 
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Sufficient Statistics-Werten fur diese Knoten gemaB 
Vorschrift (7) aktualisiert . 

Andererseits ist das Berechnen und Aktualisieren der Verbund- 
5 Verteilung P^, Y^|xi) fUr alle Knoten Y^ e sehr 

rechenaufwendig. Ferner ist das Aktualisieren der Verbund- 
Verteilung P^, ^i Ni) Grund fUr das langsame Konvergieren 

des EM-Lernverf ahrens, wenn ein grofier Teil an Information 
fehlt. 

10 

Angenommen, die Tabellen werden mit Zuf allszahlen 
initialisiert/ bevor das EM-Lernverfahren gestartet wird. 

In diesem Fall entspricht die Verbund-Verteilung P^, ^i |^i) 
15 Wesentlichen diesen Zuf allszahlen im ersten Schritt. Dies 

bedeutet, dass die initialen Zuf allszahlen in den Sufficient 
Statistics-Werten berUcksichtigt werden gemaJS dem Verhaltnis 
der fehlenden Information bezogen auf die vorhandenen 
Information, Dies bedeutet, dass die initialen Zuf allszahlen 
20 in jeder Tabelle nur gemSB dem Verhaitnis der fehlenden 
Information bezogen auf die vorhandenen Information 
„gel6scht* werden. 

Im Folgenden wird bewiesen, dass fur den Fall eines 
25 Bayesianischen Netzes als statistisches Modell der Schritt 
gemaii Vorschrift (7) nicht notwendig ist und somit 
weggelassen bzw. Ubersprungen werden kann. 

Die Log-Likelihood des Bayesianischen Netzes als 
30 statistisches Modell ist gegeben durch: 



N 

L[p] = Eiogp(?ii)- 

i = l 



(10) 
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Fur frei vorgegebene Tabellen B(H|Xj^), welche hinsichtlich dem 
Knot en H normiert sind/ ergibt sich fiir die Log-Likelihood: 

N 
i=l 

N N 
= S Z B(h|xi) log P(xi, h) ^ X Z K^k) log 
i=lh i=lh 

5 

Die Siimme ^ bezeichnet die Summe tiber alle Zustande h des 
h 

Knotens H. 

Unter Verwendung der f olgenden Def initionen ftlr r[p, b] und 
10 h[p, b]: 

N 

R[P/ B] = 2 Z log P^^i' ^) ( 12 ) 

i=lh 

H[P, b] = X 2 B(h|xi) log P(h|xi) ( 13 ) 

i=lh 

15 

ergibt sich ftir die Log-Likelihood gemaii Vorschrift (11) : 
L[p] = R[P, b] - H[P, b] . (14) 

20 

Allgemein gilt: 

h[p, b] <. H[p, P], (15) 



25 da h[p, P] - h[p, b] die nicht-negative Kreuzentropie zwischfen 
p(h|xi) und B(h|xi) darstellt. - 
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In dem t-ten Schritt wird das aktuelle statistische Modell 
mit P^^) bezeichnet. Ausgehend von dem aktuelien 
statistischen Modell P^^^ des t-ten Schrittes wird ein neues 
statistisches Modell p(^'*"^)konstruiert derart/ dass gilt: 



R^(t + l),p(t)j> R|p(t)^p(t)]. 



(16) 



10 



Es gilt: 
L|p(t + l)J 



> R 
= L 



R|p(t+1), B]~H^(t + l), 
Rp(t-^^), p(t)]-H^(t-^l), pW] 
p(t),p(t)]-H^Hp(t)] 
(t)] 



(17) 



15 



Die erste Zeile gilt allgemein fUr alle B (vergleiche 
Vorschrift (14)). Die zweite Zeile der Vorschrift (17) 
insbesondere fUr den Fall^ dass gilt: 



B 



= p(t) 



(18) 



Die dritte Zeile gilt aufgrund Vorschrift (15) . Die letzte 
Zeile von Vorschrift (17) entspricht wiederum 
20 Vorschrift (14) . 

Somit ergibt sich, dass ftlr den Fall 

R|p(tH-l),p(t)J>R^(t),p(t)J 

sicher gilt: 

25 L|p(t+l)J > l|pWJ. (19) 

Es ist auf den Unterschied zu dem Standard-EM-Lernverf ahren 
hinzuweisen [2], bei dem der R-Term definiert ist gemafi 
folgender Vorschrift: 

30 
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j^Standardfp^Bj ^ f) I] b(^. , hlxjlog P^^, y . , h). (20) 

Es ist anzximerken, dass in dem Argument von P und B in der 
obigen Vorschrift (20) iiu Unterschied zu der Definition 
5 entsprechend den Vorschriften (12) und (13) auch die 
fehlenden Gr5fien y auftreten. 

Eine Sequenz von EM-Iterationen wird gebildet derart, dass 
gilt: 

10 

tan dard|p(t + l)^ p(t)j ^ tan dard^(t)^ p(t)J ^ ^21) 



Bei dem erf indungsgemSiJien Lernverf ahren wird fiir den Fall 
eines Bayesianischen Netzes eine Sequenz von EM~Iterationen 
15 derart gebildet, dass gilt: 

R|p(t + l),p(t)J> R^(t)^p(t)J, (16) 



Nun wird gezeigt, dass die auf R, definiert gemaii Vorschrift 
20 (12), zu dem oben beschriebenen Lernverfahren fUhrt, bei dem 
Vorschrift (7) tlbersprungen wird. Bei einem gegebenen 
aktuellen statistischen Modell P^^^ zu einer Iteration t ist 
es das Ziel des Verfahrens, ein neues statistisches Modell 
P^ ^ in der Iteration t+1 zu berechnen, indem 
25 beztiglich P optimiert wird. Unter Verwendung der 
Faktorisierung gemafi Vorschrift (2) ergibt sich: 



30 



R^,p(t)]= |:2:p^%k)i^^^(^)+ 2p^%k)^^5 4iih)- 

i = lh i = lh K = l 



(22) 



Eine Optimierung von R in Bezug auf das Modell P ftlhrt zu dem 
erf indungsgemaBen Verf ahren. Der erste Term ftihrt zu der 
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Standard-Aktualisierung der p(h) gemSLfi den Vorschriften (5) 
und (7) . 



Mit 



N 



SS(h) s f;p(^)(h|xi)logP(h) (23) 
i=l 

ergibt sich der erste Term von Vorschrift (22) zu 
N , V 

10 X S P^^^lH^i) log P(h) = 2! S S(h) log P(h) , (24) 
h i = l h 

was im Wesentlichen der Kreuzentropie zwischen SS(h) und p(h) 
entspricht. Soiait ist das optimale p(h) durch SS(h) gegeben. 
Dies entspricht dem M-Schritt gemafi Vorschrift (8) . 

15 

Der zweite Term von Vorschrift (22) fUhrt zu einer EM- 
Aktualisierung fiir die Tabellen der bedingten 
Wahrscheinlichkeiten p(o^|h), wie mittels der Vorschriften (6) 
und (9) beschrieben. Urn dies zu veranschaulichen werden alle 
20 die Terme in R gesammelt, welche abhangig sind von pjo^lnj, 
Diese Terme sind gegeben gemafi folgender Vorschrift: 

^ |;p(t)(h|xi)logp(o>). (25) 
h i=l 

N 

25 Die Summe ^ bezeichnet die Summe Uber alle Datenelemente 
i=l 

71 

i in dem Datensatz^ wobei O einer der beobachteten Knoten 
ist^ d.h. bei dem gilt: 



• 
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(26) 



Zusammenf assend kann der obige Ausdruck (25) als die 
Kreuzentropie zwischen und den Sufficient Statistics- 

5 Werten, welche gemafi Vorschrift (6) akkumuliert werden, 

interpretiert warden. Es ist somit nicht erf orderlich, eine 
Aktualisierung gemcLii Vorschrift (7) vorzusehen. Dies ist auf 

N Ki 
die Summe 2 Vorschrift (25) bzw, auf die Siamme ^ 

i=l K=l 

in Vorschrift (22) zuriickzuftihren, Diese Summe beriicksichtigt 
10 nur die beobachteten Knoten, im Gegensatz zu der Definition 
von i^^^^^^^^^ gemaft Vorschrift (20), in der auch die nicht 
beobachteten Knoten Yi berticksichtigt werden. 

Im Folgenden wird in einem allgemeingUltigeren Fall die 
15 GUltigkeit der Vorgehensweise, nicht beobachtete Knoten im 
Rahmen der Aktualisierung der Sufficient Statistics Tafeln 
nicht zu berticksichtigen, dargelegt, womit gezeigt wird, dass 
die Vorgehensweise nicht auf ein so genanntes Bayesianisches 
Netz beschrankt ist. 



20 



Es wird ein Satz von Variablen Z — Z^/ ••• / Z^l angenommen • 
Es wird ferner angenonuaen, dass das statistische Modell auf 
folgende Weise f aktorisierbar ist: 



25 P(Z)= n^Z^Int""])' <27) 
o = l 

wobei mit Jlfz^j die ^^Eltern"" -Knoten des Knoten in dem 

Bayesianischen Netz bezeichnet werden. Ferner wird fur jeden 
Knoten Z ein Datensatz {zj^/ i = 1/.../N} mit N 

30 Datensatzelementen angenommen. Wie schon oben angenommen, 

wird auch in diesem Fall in jedem der N Datensatzelemente ein 
nur ein Teil der Knoten Z beobachtet. FUr das i-te 
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Datensatzelement wird angenommen, dass die Knoten Xi 
beobachtet werden; die Knoten Xi werden nicht beobachtet und 
es gilt: 

5 Z = X o Xi . (28) 



Fur jedes der N Datensatzelemente werden die nicht 
beobachteten Knoten Xi in zwei Untermengen Hi und Yi 
aufgeteilt derart, dass keiner der Knoten in den Mengen Xi 
und Hi ein abhangiger, d.h. nachf olgender Knoten (^Kinder''^- 
Knoten) eines Knotens in der Menge Yi ist. Anschaulich 
bedeutet das, dass Yi einem Zweig in einem Bayesianischen 
Netz entspricht, zu dem es keine Inf ormationen in den Daten 
gibt . 

Somit ergeben sich die Verbund-Verteilungen ftir die Knoten Xi 
xind Hi gemSB f olgender Vorschrift: 

^^(xi.Hi)= nK^nw) nHniriM). (29) 

XeXi HGHjL 
20 

1) E-Schritt 

Fiir jeden Knoten Z werden rait Null-Werten initialisierte 
Tabellen ss(z, J^[z]) gebildet bzw. bereitgestellt . Fiir jedes 

25 Datensatzelement i in dem Datensatz werden die a posteriori 
Verteilung p(z, P][ [z|Xj^ = k^) berechnet und die Sufficient 

Statistics-Werte gemaii folgender Vorschrift akkuiauliert ftir 
jeden Knoten Z e Xj^ und Z e H j_ : 

30 Ss(z, n |z) + = P(z, Yi N^i = 2£i) • (30) 

Die Sufficient Statistics-Werte der Tabellen^ welche den 
Knoten in Xi zugeordnet sind, werden nicht aktualisiert . 



10 
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35 2) M-Schritt 
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Die Parameter (Tabellen) aller Knoten werden gemali folgender 
Vorschrift aktualisiert : 



Anschaulich kann die Erfindung darin gesehen werden, dass ein 
breiter und einfacher (im Allgemeinen jedoch allerdings 
approximativer) Zugang zu der Statistik einer Datenbank 
(bevorzugt Uber das Internet) durch Bildung statistischer 
Modelle ftir die Inhalte der Datenbank geschaffen wird. Somit 
werden die statistischen Modelle zur ^Remote Diagnose"*, zur 
so genannten ^Remote Assistance"* oder zum ^Remote Research^ 
tiber ein Kommunikationsnetz automatisch versendet, Anders 
ausgedrtickt wird ,,Wissen^ in Form eines statistischen Modells 
kommuniziert und versendet. Wissen ist haufig Wissen Uber die 
Zusaramenhange und wechselseitigen Abhangigkeiten in einer 
Domane, beispielsweise Uber die Abh^ngigkeiten in einem 
Prozess. Ein statistisches Modell einer Domane, welches aus 
den Daten der Datenbank gebildet wird, ist ein Abbild all 
dieser Zusammenhange . Technisch stellen die Modelle eine 
gemeinsame Wahrscheinlichkeitsverteilung der Dimensionen der 
Datenbank dar, sind also nicht auf eine spezielle 
Auf gabenstellung eingeschrSLnkt, sondern stellen beliebige 
Abhangigkeiten zwischen den Dimensionen dar. Komprimiert zu 
dem statistischen Modell lasst sich das Wissen Uber eine 
Domane sehr einfach handhaben, versenden, beliebigen Nutzern 
bereitstellen, etc - 

Die Aufl5sung des Abbildes bzw. des statistischen Modells 
kann entsprechend den Anf orderungen des Datenschutzes oder 
den BedUrfnissen der Partner gewahlt werden. 




(31) 
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In diesem Dokxamenten sind folgende VerGf f entlichungen 
zitiert : 



[1] Christopher M, Bishop, Latent Variable Models, M.I. 
5 Jordan (Editor), Learning in Graphical Models, Kulwer, 

1998, Seiten .371 - 405 

[2] M.A. Tanner, Tools for Statistical Inference, Springer, 
New York, 3. Auflage, 1996, Seiten 64 - 135 

[3] Radford M. Neal und Geoffrey E. Hinton, A View of the EM 
Algorithm that Justifies Incremental, Sparse and Other 
Variants, M.I. Jordan (Editor), Learning in Graphical 
Models, Kulwer, 1998, Seiten 355 - 371 

[4] D- Heckermann, Bayesian Networks for Data Mining, Data 
Mining and Knowledge Discovery, Seiten 79 - 119, 1997 

[5] Reimar Hofmann, Lernen der Struktur nichtlinearer 
20 Abhangigkeiten mit graphischen Modellen, Dissertation an 

der Technischen Universitat Miinchen, Verlag: 
dissertation.de, ISBN: 3-89825-131-4 
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Patentanspruche 

1. Verfahren zxim rechnergestUtzten Bereitstellen von 
Datenbankinformation einer ersten Datenbank, 

• bei dem ftlr die erste Datenbank ein erstes statistisches 
Modell gebildet wird, welches die statistischen 
Zusammenhange der in der ersten Datenbank enthaltenen 
Datenelemente reprasentiert, 

• bei dem das erste statistische Modell in einem Server- 
Computer gespeichert wird, 

• bei dem das erste statistische Modell von dem Server- 
Computer uber ein Kommunikationsnetz zu einem Client- 
Computer ubertragen wird, 

o bei dem das empfangene erste statistische Modell von dem 
Client-Computer weiterverarbeitet wird, 

2. Verfahren gemaB Anspruch 1, 

bei dem unter Verwendung des ersten statistischen Modells und 
Datenelementen einer in dem Client-Computer gespeicherten 
20 zweiten Datenbank ein statistisches Gesamt -Modell gebildet 
wird, welches zumindest einen Teil der in dem ersten 
statistischen Modell und in der zweiten Datenbank enthaltenen 
statistischen Information aufweist, 

25 3. Verfahren gemaB Anspruch 1, 

• bei dem fur eine zweite Datenbank ein zweites 
statistisches Modell gebildet wird, welches die 
statistischen ZusammenhSnge der in der zweiten Datenbank 
enthaltenen Datenelemente represent iert, 

30 o bei dem das zweite statistische Modell Uber das 

Kommunikationsnetz zu dem Client-Computer tibertragen 
wird , 

• bei dem unter Verwendung des ersten statistischen 
Modells und des zweiten statistischen Modells von dem 

35 Client-Computer ein statistisches Gesamt -Modell gebildet 

wird, welches zumindest einen Teil der in dem ersten 
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statistischen Modell und in dem zweiten statistischen 
Modell enthaltenen statistischen Information aufweist. 

4. Verfahren gema^ Anspruch 3, 

• bei deiti das zweite statistische Modell in einem zweiten 
Server-Computer gespeichert wird, 

• bei dem das zweite statistische Modell von dem zweiten 
Server-Computer Ober ein Kommunikationsnetz zu dem 
Client-Computer ubertragen wird. 

5. Verfahren gemaB einem der Ansprtiche 1 bis 4, 
bei dem mindestens eines der statistischen Modelle mittels 
eines skalierbaren Verfahrens gebildet wird^ mit dem der 
Kompressionsgrad des statistischen Modells verglichen mit den 
in der jeweiligen Datenbank enthaltenen Datenelementen 
einstellbar ist. 

6. Verfahren gemafi einem der Anspriiche 1 bis 5, 
bei dem mindestens eines der statistischen Modelle mittels 

20 eines EM-Lernverf ahrens oder mittels eines 

gradientenbasierten Lernverf ahrens gebildet wird. 

7. Verfahren gemaJB einem der Ansprtiche 1 bis 6, 

bei dem die erste Datenbank oder/und die zweite Datenbank 
25 Datenelemente aufweist/aufweisen, welche mindestens eine 
technische Anlage beschreiben. 

8. Verfahren gemSfi Anspruch 1, 

bei dem die die mindestens eine technische Anlage 
30 beschreibenden Datenelemente zumindest teilweise an der 

technischen Anlage gemessene Werte darstellen, welche das 
Betriebsverhalten der technischen Anlage beschreiben. 
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9. Verfahren zxm rechnergesttitzten Bilden eines statistischen 
Modells einer Datenbank, welche eine Vielzahl von 
Datenelementen aufweist. 
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• bei dem ein EM-Lernverf ahren auf die Datenelemente 
durchgeftihrt wird, so dass zu einem vorgebbaren 
gerichteten Graph statistische ZusammenhSnge zwischen 
den Datenelementen ermittelt werdeii/ 

5 • wobei der gerichtete Graph Knoten und Kanten aufweist, 

• wobei die BCnoten vorgebbare beobachtbare Datenbank- 
Zustande und nicht beobachtbare Datenbank-Zustande 
beschreiben, 

• bei dem im Rahmen des EM-Lernverfahrens nur die 

10 Erwartungswerte ermittelt werden zu den beobachtbaren 

Datenbank-Zust^nden sowie zu den nicht beobachtbaren 
Datenbank-Zustanden, deren Eltern-Datenbank-Zustande 
beobachtbare Datenbank-Zustande sind. 

15 10. Computer-Anordnung zvoca rechnergestUtzten Bereitstellen 
von Datenbankinformation einer ersten Datenbank, 

• mit einem Server-Computer, in dem ein erstes 
statistisches Modell, welches filr eine erste Datenbank 
gebildet ist, gespeichert ist/ wobei das erste 

20 statistische Modell die statistischen Zusammenhange der 

in der ersten Datenbank enthaltenen Datenelemente 
reprasentiert, 

• mit einem mit dem- Server-Computer mittels eines 
Kommunikationsnetz gekoppelten Client-Computer, der 

25 eingerichtet ist zur Weiterverarbeitung des von dem 

Server-Computer Ober das Kommunikationsnetz zu dem 
Client-Computer tibertragenen ersten statistischen 
Modells. 

30 11, Computer-Anordnung gemaii Anspruch 10, 

o bei der in dem Client-Computer eine zweite Datenbank mit 
Datenelementen gespeichert ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt -Model Is iinter Verwendung des ersten 

35 statistischen Modells und den Datenelementen der zweiten 

Datenbank, aufweist, wobei das statistische Gesamt- 
Modell zTomindest einen Teil der in dem ersten 
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statistischen Modell und in der zweiten Datenbank 
enthaltenen statistischen Information aufweist. 



12. Computer-Anordnung gemafi Anspruch 10, 

• mit einem zweiten Server-Computer, in dem ein zweites 



10 
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statistisches Modell, welches fur eine zweite Datenbank 
gebildet ist, gespeichert ist, wobei das zweite 
statistische Modell die statistischen ZusammenhSnge der 
in der zweiten Datenbank enthaltenen Datenelemente 
reprasentiert, 

• wobei der Client-Computer mittels des 
Kommunikationsnetzes mit dem zweiten Server-Computer 
gekoppelt ist, 

• wobei der Client-Computer eine Einheit zum Bilden eines 
statistischen Gesamt-Modells unter Verwendung des ersten 
statistischen Modells und des zweiten statistischen 
Modells, aufweist, wobei das statistische Gesamt -Modell 
zumindest einen Teil der in dem ersten statistischen 
Modell und in dem zweiten statistischen Modell 
enthaltenen statistischen Information aufweist. 



